«L’apprentissage en profondeur » ou « Deep Learning » est la tâche à accomplir pour Vijaykrishnan Narayanan et son équipe multidisciplinaire de chercheurs qui développent un système de vision informatisé qui pourrait correspondre, voire même dépasser, les capacités de la vision humaine.
Vijaykrishnan Narayanan, professeur de science informatique, d’ingénierie et d’ingénierie électrique, et son équipe ont reçu un prix de 10 millions de dollars de la National Science Foundation (NSF) l’automne dernier pour de renforcer la capacité des ordinateurs à non seulement enregistrer des images, mais à comprendre actuellement ce que ils voient, un concept que Vijaykrishnan Narayanan a appelle «l’apprentissage en profondeur. »
Le cerveau humain effectue des tâches complexes que nous ne réalisons pas quand il s’agit de traiter ce que nous voyons, souligne Vijaykrishnan Narayanan. Pour donner un exemple de la façon dont le cerveau humain peut mettre des images dans leur contexte, il fait signe vers un photographe dans la salle.
«Même si je n’ai pas vu cette personne pendant un certain temps et que son appareil photo obscurcie en partie son visage, je sais qui il est. Mon cerveau comble les lacunes sur la base de l’expérience passée. Notre objectif de recherche est donc de développer des systèmes informatiques qui perçoivent le monde de manière semblable à la façon dont un être humain le fait « .
Certains types de systèmes de vision par ordinateur ne sont pas nouveaux. De nombreux appareils photo numériques, par exemple, peuvent détecter les visages humains et faire la mise au point. Mais les appareils photos intelligents ne tiennent pas compte des environnements encombrés complexes.
Cela fait partie de l’objectif de recherche de l’équipe: aider les systèmes informatiques à comprendre et à interagir avec leur environnement et analyser intelligemment des scènes complexes pour bâtir un contexte de ce qui se passe autour d’eux. Par exemple, la présence d’un écran d’ordinateur suggère qu’il y a probablement un clavier et une souris à proximité à côté de clavier.
Vijaykrishnan Narayanan propose un autre exemple: «De nombreux usines ont des systèmes de caméra de sécurité en place pour identifier les personnes. La caméra peut voir qui je suis. Qu’advient-il si un enfant est avec moi ? L’hypothèse évidente serait que cet enfant a été vu avec moi tant de fois, qu’il il doit être mon fils. Mais considérons le contexte. Si cette caméra de sécurité est dans une auberge de jeunesse. Cet endroit est souvent un lieu qui a des programmes d’échanges, de sorte que cet enfant pourrait également ne pas être mon fils, mais celui de mon voisin. Ainsi nous travaillons sur des systèmes holistiques qui peuvent intégrer toutes sortes d’informations et construire un contexte de ce qui se passe par le traitement de ce qui est dans la scène ».
Un autre objectif de recherche est de développer ces systèmes de vision machines qui peuvent traiter l’information efficacement, en utilisant un minimum d’énergie. La plupart des systèmes de vision industrielle actuels utilisent beaucoup d’énergie et sont conçus pour une application spécifique (comme la fonction de reconnaissance de visage que l’on retrouve dans de nombreux appareils photo numériques).
Les chercheurs veulent construire des dispositifs à faible puissance qui peuvent reproduire l’efficacité du cortex visuel humain, ce qui peut donner un sens à des environnements encombrés et compléter une série de tâches visuelles avec moins de 20 watts de puissance.
Vijaykrishnan Narayanan et d’autres membres de l’équipe sont à la recherche de plusieurs scénarios pour des applications pratiques de systèmes visuels intelligents, y compris pour aider les personnes ayant une déficience visuelle à faire leurs achats dans une épicerie. Lui et ses collègues Mary Beth Rosson et John Carroll, professeurs de sciences et technologies de l’information et co-directeurs du the Computer-Supported Collaboration and Learning Lab, étudient comment les systèmes de vision artificielle peuvent interagir et aider les malvoyants.
« Nous allons travailler avec des collaborateurs du Sight Loss Support Group pour mieux comprendre les pratiques et les expériences de déficience visuelle, et concevoir des maquettes, des prototypes, et éventuellement des applications pour les aider dans de nouveaux moyens appropriés » précise John Carroll.
Une autre priorité de recherche utilise des systèmes visuels intelligents pour améliorer la sécurité du conducteur. La distraction au volant est la cause de plus d’un quart de millions de blessés chaque année (aux Etats-Unis), de sorte qu’un dispositif qui pourrait avertir les conducteurs distraits quand leurs yeux quittent la route trop longtemps, pourrait réduire considérablement les accidents graves.
Ces systèmes pourraient donc aider à attirer l’attention des conducteurs vers des objets ou des mouvements dans l’environnement qu’ils n’auraient peut-être pas remarqué.
http://news.psu.edu/story/323345/2014/08/19/research/can-computers-understand-what-they-see