Un algorithme d’apprentissage profond du MIT CSAIL a passé le test de Turing pour le son, ce qui conduit les chercheurs à croire que ceci pourrait améliorer les capacités des robots à interagir avec leur environnement.
Des chercheurs de l’informatique et du laboratoire d’intelligence artificielle (CSAIL) du MIT ont développé un algorithme d’apprentissage profond (deep learning) qui passe le test de Turing pour le son: lorsqu’il est montré un clip vidéo silencieux d’un objet étant frappé, l’algorithme peut produire un son correspond au coup qui est assez réaliste pour tromper les téléspectateurs humains.
L’équipe estime que les travaux futurs dans ce domaine pourraient améliorer les capacités des robots à interagir avec leur environnement. Pour les robots qui navigueront dans le monde, par exemple, ils devront être en mesure de faire des hypothèses raisonnables sur leur environnement et sur ce qui pourrait arriver au cours d’une suite d’événements.
« Un robot pourrait regarder un trottoir et instinctivement savoir que le ciment est dur et que l’herbe est douce, et donc savoir ce qui se passerait s’il montait sur l’un d’eux», a déclaré le doctorant Andrew Owens du MIT CSAIL. «Être capable de prédire un son est une première étape importante vers le fait d’être en mesure de prédire les conséquences des interactions physiques avec le monde »
Comment l’Intelligence artificielle du MIT fonctionne ?
Pendant plusieurs mois, les chercheurs ont enregistré environ 1000 vidéos d’environ 46000 sons qui représentent divers objets qui sont touchés, grattées et poussés avec un pilon. (Ils ont utilisé un pilon parce que cela a fourni une e manière cohérente de produire un son.) Ensuite, l’équipe a envoyé ces vidéos vers un algorithme d’apprentissage profond qui a déconstruit les sons et analysé leur hauteur, force et autres caractéristiques.
« Pour alors prédire le bruit d’une nouvelle vidéo, l’algorithme observe les propriétés sonores de chaque image de la vidéo, et les associe aux sons les plus similaires dans une base de données», a déclaré Andrew Owens. « Une fois que le système dispose de ces bits de l’audio, il les associe ensemble pour créer un son cohérent. »
Le résultat est que l’algorithme peut simuler avec précision les subtilités des différents frappes, depuis des frappes staccato d’une roche jusqu’aux formes d’onde plus longues d’un bruissement de lierre. La hauteur du son n’est pas un problème non plus, car il est capable de synthétiser des hauteurs de sons allant de « bruits sourds » d’un canapé jusqu’aux « clics » aigus d’un garde-corps en bois dur.
Les humains dupés par l’IA
Pour tester le réalisme des faux sons, l’équipe a mené une étude en ligne dans laquelle les sujets ont vu deux vidéos de collisions – une avec le réel son enregistré, et l’autre avec l’algorithme – et on a demandé quel son était réel.
Résultat: les sujets ont choisis le faux son par rapport au vrai, deux fois plus souvent avec l’algorithme de base. Ils ont été particulièrement trompés par des matériaux comme les feuilles et la saleté qui ont tendance à avoir moins de sons «propres» que, disons, le bois ou le métal.
Amélioration de l’IA dans l’avenir
Les chercheurs disent qu’il y a encore de la place pour améliorer le système. Par exemple, si le pilon se déplace en particulier de façon erratique dans une vidéo, l’algorithme est plus susceptible de manquer ou de créer un son qui n’a rien à voir. Il est aussi limité par le fait qu’il s’applique seulement aux « bruits indiqués visuellement », des sons qui sont directement provoqués par l’interaction physique qui est décrite dans la vidéo.
«Du souffle doux du vent au bourdonnement des ordinateurs portables, à un moment donné il y a tellement de sons ambiants qui ne sont pas liés à ce que nous sommes en train de regarder », a déclaré Andrew Owens. « Ce qui serait vraiment excitant serait simuler en quelque sorte un son qui est moins directement associé aux visuels. »
http://www.csail.mit.edu/visually_indicated_sounds