La lecture labiale est une science inexacte, car le mouvement de la bouche rende difficile kle fait d’attribuer des sons à chaque mouvement individuel. Les informaticiens de l’Université d’Oxford ont fait équipe avec DeepMind de Google pour développer une intelligence artificielle qui pourrait donner un coup de main aux malentendants, avec leur logiciel Watch, Attend et Spell (WAS) qui semble surperformant pour une lecture experte des lèvres lors de tests précoce.
Les chiffres sur la précision de la lecture sur les lèvres varient, mais une chose est certaine: elle est loin d’être une parfaite façon d’interpréter la parole. Dans un article antérieur, les informaticiens d’Oxford ont rapporté qu’en moyenne, les malentendantes qui lisent sur les lèvres peuvent obtenir une précision de 52,3%. Pendant ce temps, les chercheurs de la Georgia Tech disent que seulement 30 % de tous les discours est visible sur les lèvres.
Quoi qu’il en soit, les logiciels qui peuvent automatiser la tâche et/ou augmenter sa précision pourraient avoir un impact important sur la vie des malentendants. C’est avec cet esprit que l’équipe d’Oxford a collaboré avec DeepMind, la société en Intelligence Artificielle acquise par Google en 2014, pour développer un système qui peut apporter de meilleurs résultats.
Les chercheurs ont fait cela en utilisant la vision par ordinateur et de l’apprentissage machine pour former WAS avec plus de 5000 heures de séquences TV de la BBC. Les vidéos comprenaient plus de 118 000 phrases et un vocabulaire de 17 500 mots prononcés par plus de 1 000 personnes différentes.
Ils ont ensuite mis WAS à l’épreuve aux côtés d’un expert humain en lecture labiale, chargeant la paire de travailler sur ce qui se disait dans une vidéo silencieuse en utilisant seulement les mouvements de la bouche de la personne. L’homme a correctement lu 12 % des mots, tandis que WAS a interprété 50 % des mots correctement. Il a fait quelques erreurs, mais l’équipe dit qu’elles étaient mineures, y compris les accidents comme manquer un «s» à la fin d’un mot ou mal orthographié un mot par une seule lettre.
Alors qu’il y a un moyen d’en faire davantage avant que la technologie soit mise en pratique, les chercheurs disent à la BBC que le but est de le faire fonctionner en temps réel et un tel exploit est réalisable – tant qu’ils continuent à former le système avec des séquences TV , Il apprendra.
« La technologie de la lecture des lèvres en IA serait en mesure d’améliorer la précision et la vitesse de la reconnaissance de la parole en texte en particulier dans les environnements bruyants et nous encourageons la recherche dans ce domaine car nous nous réjouissons de voir de nouvelles avancées qui sont faites », a déclaré Jesish Vishnuram, Directeur de la Recherche Technologique de la British charity Action on Hearing Loss
http://www.ox.ac.uk/news/2017-03-17-new-computer-software-programme-excels-lip-reading
https://www.robots.ox.ac.uk/~vgg/publications/2016/Chung16/chung16.pdf