Des chercheurs de l’Université de Californie à San Diego (UCSD) ont mis au point un système de détection de piétons qui fonctionne en temps quasi réel avec une plus grande précision que les systèmes existants. Les chercheurs estiment que l’algorithme et la technologie pourraient être utilisés dans les véhicules autonomes, la robotique, et dans les systèmes de recherche d’images et de vidéos.
Le système a été développé par le professeur en génie électrique Nuno Vasconcelos au sein de la Jacobs School of Engineering UCSD. Son équipe a combiné les modèles traditionnels de vision par ordinateur avec l’apprentissage en profondeur (deep learning) pour améliorer la précision et la vitesse.
L’objectif était la vision en temps réel qui permettrait au système de reconnaître et de classer des objets, en particulier des êtres humains, dans des conditions de conduite urbaine normale. Cela permettrait à une voiture autonome, au robot de livraison, ou au drone volant à basse altitude de détecter et d’éviter les piétons et les obstacles et congestions potentiels.
La plupart des systèmes de détection de piétons divisent une image en petites sections (appelées «windows » ou «fenêtres») qui sont traitées par un programme de classification afin de déterminer la présence d’une forme humaine. Cela peut être un vrai défi pour les ingénieurs parce que les humains sont de différentes formes et tailles et la distance change la perspective et la taille des objets. Dans une application typique en temps réel, cela implique le traitement des millions de ces fenêtres entre 5 et 30 images par seconde.
La technique de détection en cascade utilisée dans le système de l’UCSD fait la même fonction de base, mais elle le fait en plusieurs étapes plutôt qu’en une seule fois. Cela permet à l’algorithme de se défaire rapidement des cadres qui n’ont pas de risque de contenir une forme humaine et de se concentrer sur ceux qui le peuvent. Donc des cadres qui ont des formes relativement uniformes et en couleurs (le ciel, par exemple) sont ignorés en faveur de cadres qui sont plus occupés.
La deuxième étape classifie et rejette des cadres qui ont des objets similaires en termes de forme ou de variation de couleur par rapport aux humains, mais qui ne sont pas des piétons (arbres, arbustes, d’autres véhicules). Les dernières étapes classent en détail plus fin et plus détaillé que seulement les piétons, les cadres qui sont délaissés et marqués. Bien que ces calculs et les processus finaux nécessitent de gros calculs, seuls quelques-uns d’entre eux sont nécessaires pour la comparaison, cela est donc fait rapidement.
Traditionnellement, les systèmes de détection en cascade utilisent des classificateurs simples, appelés «weak learners » ou «apprenants faibles ». Dans le système de l’UCSD, les systèmes de détection au stade ultérieur apprennent au fil de l’eau, de sorte que les classificateurs deviennent de plus en plus sophistiqués et donc plus rapides. Les classificateurs à chaque étape deviennent ainsi plus robuste au fil du temps et ne sont pas tous les mêmes d’un stade à l’autre, ce qui est une différence essentielle entre ce nouvel algorithme et les systèmes actuels de détection des piétons.
L’algorithme fait cela, souligne Nuno Vasconcelos, en apprenant quelles combinaisons des apprenants faibles ont été capables de détecter les piétons dans un cadre et de mettre davantage l’accent sur ceux dont les cadres progressent, accélérant le processus de détection. L’objectif est d’optimiser en permanence le compromis entre précision de la détection et de la vitesse.
Pour l’instant, l’algorithme ne fonctionne que dans les tâches de détection binaires (oui / non), mais l’équipe de l’UCSD espère étendre ses capacités afin de détecter plusieurs types d’objets simultanément.
http://jacobsschool.ucsd.edu/news/news_releases/release.sfe?id=1883
www.svcl.ucsd.edu/publications/conference/2015/CompACT/CompACT.pdf