Malgré tout le battage médiatique, les voitures autonomes sont encore assez désemparées face à de nombreuses tâches qui sont pourtant simples pour les pilotes humains, comme la reconnaissance d’un trottoir ou d’un feu de circulation. Les scientifiques du Centre Vision par Ordinteur (Computer Vision Center) de Barcelone viennent maintenant à la rescousse avec Synthia, une simulation de ville virtuelle qui peut entraîner les systèmes d’intelligence artificielle pour la conduite à reconnaître et traiter toutes sortes d’obstacles et de situations, même sous la pluie ou la neige.
Les données réelles, de vrais maux de tête
Si vous en croyez Elon Musk, vous pensez que les voitures autonomes deviendront un jour si sûres qu’elles remplaceront complètement les conducteurs humains. Cela pourrait bien être vrai, mais, même si Tesla repousse les limites avec ses caractéristiques semi-autonomes, il faudra toujours un certain temps avant que vous poussiez simplement mettre vos pieds sur le tableau de bord et laissiez votre modèle S fonctionner pour vous.
Les réseaux de neurones, qui sont un élément clé des systèmes d’intelligence artificielle pour la conduite, sont entrainés grâce à un vaste ensemble d’images et de vidéos du monde réel pour reconnaître avec précision les différentes «classes» d’objets, telles que les voitures, les piétons, les panneaux routiers, et ainsi de suite. En utilisant ces classes, le logiciel peut alors essayer d’interpréter la saisie en temps réel à partir des caméras de la voiture et décider d’orienter, de freiner, ou de signaler un changement de voie.
Mais alors que les systèmes d’intelligence artificielle pour la conduite peuvent recueillir beaucoup de données sur des situations courantes comme la conduite sur autoroute, ce qui est relativement facile en termes d’IA, le logiciel prend beaucoup de temps pour essayer de gérer ce que les ingénieurs appellent les « corner cases », c’est-à-dire les cas d’exception.
Ce sont des événements qui se produisent rarement – comme les accidents de voiture, les ambulances répondant à une situation d’urgence, ou manœuvrer des véhicules de construction – et posent donc des difficultés dans la collecte d’un échantillon suffisamment grand de données du monde réel avec lequel entrainer un logiciel d’auto-conduite.
Pire encore, les images utilisées pour former les réseaux de neurones doivent être annotées manuellement: c’est-à-dire, que quelqu’un a besoin de minutieusement passer sur ar chaque image et étiqueter les différents éléments à un niveau pixel par pixel, séparant la route sur laquelle on peut rouler du trottoir, ou distinguant piéton d’un panneau routier. Voici ce que Daimler a fait avec le projet CityScapes, annotant manuellement plus de 20000 images et séparer des objets dans 30 classes différentes. Mobileye, qui fournit le logiciel utilisé par le système de pilotage automatique de Tesla, emploie actuellement plus de 600 personnes pour annoter manuellement des images et en faire 1000 d’ici la fin de l’année.
De toute évidence, cela a été un problème coûteux à résoudre – et il ne traite pas le problème des cas d’exception.
Itinérance dans un monde virtuel
German Ros et son équipe du Computer Vision Center à Barcelone ont trouvé un moyen d’annoter correctement les images automatiquement et enseigner les systèmes d’IA pour la conduite comment se comporter, même dans les situations les plus insolites imaginables, le tout à partir d’un jeu vidéo.
En utilisant le moteur très connu Unity, les chercheurs ont commencé par la création d’une simulation réaliste non seulement d’une ville et de ses environs, complétée avec les piétons, les cyclistes et les autobus mal garés, mais aussi d’un système météorologique complexe qui inclut la pluie, la neige, et les saisons. Ils ont ensuite «construit» une voiture virtuelle dans la simulation, ont choisi le positionnement et l’orientation spécifique pour les caméras automatiques de la voiture, et ont laissé la voiture errer dans le monde virtuel, prenant des vidéos et des images du point de vue de la caméra.
Parce que le logiciel peut identifier avec exactitude ce que les caméras virtuelles ont capturé, le système peut générer une très grande collection d’images et de vidéos réalistes impeccablement annotées que les chercheurs ont surnommé Synthia (Synthetic collection of Imagery and Annotations of urban scenario ou Collection synthétique d’imagerie et d’annotations d’un scénario urbain).
En plus des images du monde réel, les données peuvent ensuite être envoyées à un réseau de neurones pour l’entrainer, ce qui élimine la nécessité d’énormes quantités d’annotations manuelles en temps et en main-d’œuvre, et même aider les logiciels de conduite à reconnaître certains des objets qui leur prend généralement plus de temps.
« Les systèmes d’intelligence artificielle deviennent très bons pour reconnaître des objets tels que des piétons ou des véhicules, » assure German Ros. « Cependant, les limites des trottoirs et la reconnaissance des feux de circulation sont toujours très difficiles. De plus, les trottoirs changent considérablement d’un pays à une autre, d’une ville à une autre. Grâce à Synthia, nous pouvons produire des cas d’exception sans risque, et se concentrer sur ceux-ci. »
Les chercheurs ont recueilli plus de 213000 images et séquences vidéo virtuelles, et ont cherché à savoir si la formation des réseaux neuronaux sur une combinaison d’images réelles et virtuelles permettrait d’améliorer les capacités de reconnaissance du logiciel pour des images du monde réel. Le mélange qu’ils ont utilisé, précise German Ros, était généralement de 2% ou moins d’images annotées manuellement du monde réel, avec le reste de la base de données de Synthia.
En utilisant comme une base, 8 algorithmes différents qui ont traité des images basse résolution (240 par 180 pixels), l’équipe a vu que l’ajout des images de synthèse à celles annotés manuellement améliorait sensiblement les capacités de reconnaissance d’images. Lorsque vous essayez de classer les petites zones de ces images dans l’une des 11 catégories, le taux moyen de réussite est passé de 45 à environ 55 %.
Le logiciel de pilotage commercial utilise des images source de qualité supérieure, de sorte que leur précision sera plus élevée, mais German Ros dit que l’analyse est encore une indication claire de l’efficacité de Synthia.
Les scientifiques mettent à disposition toutes les données produites par Synthia avec une licence publique pour une utilisation non-commerciale afin d’obtenir des commentaires et améliorer encore la plate-forme. German Ros dit aussi qu’il y a des accords commerciaux en place avec des constructeurs automobiles qui doivent encore être annoncées pour adapter la configuration de la caméra de « voiture virtuelle » de Synthia afin de correspondre aux spécifications du fabricant.
https://www.cityscapes-dataset.com/