
ALAN fonctionnant dans des environnements de cuisine ludique réels.
Les roboticiens ont mis au point de nombreux systèmes avancés au cours de la dernière décennie, mais la plupart d’entre eux nécessitent encore un certain degré de supervision humaine. Idéalement, les futurs robots devraient explorer des environnements inconnus de manière autonome et indépendante, en collectant continuellement des données et en apprenant à partir de ces données.
Des chercheurs de l’université Carnegie Mellon ont récemment créé ALAN, un agent robotique capable d’explorer de manière autonome des environnements inconnus. Ce robot, présenté dans un article prépublié sur arXiv et devant être présenté à la Conférence internationale de robotique et d’automatisation (ICRA 2023), s’est révélé capable d’accomplir avec succès des tâches dans le monde réel après un bref nombre d’essais d’exploration.
« Nous nous sommes intéressés à la construction d’une IA qui apprend en fixant ses propres objectifs », a déclaré Russell Mendonca, l’un des chercheurs qui a mené l’étude. « En ne dépendant pas des humains pour la supervision ou l’orientation, de tels agents peuvent continuer à apprendre dans de nouveaux scénarios, poussés par leur propre curiosité. Cela permettrait une généralisation continue à différents domaines et la découverte de comportements de plus en plus complexes. »
Le groupe de robotique de l’université Carnegie Mellon avait déjà présenté quelques agents autonomes capables d’accomplir de nouvelles tâches avec peu ou pas de formation supplémentaire, notamment un modèle entraîné à jouer au jeu vidéo Mario et un système capable d’accomplir des tâches de manipulation d’objets en plusieurs étapes. Toutefois, ces systèmes n’ont été formés et testés que dans des environnements simulés.
L’objectif principal de la récente étude de l’équipe était de créer un cadre qui pourrait être appliqué aux robots physiques dans le monde, afin d’améliorer leur capacité à explorer leur environnement et à accomplir de nouvelles tâches. ALAN, le système créé par l’équipe, apprend à explorer son environnement de manière autonome, sans recevoir de récompenses ou de conseils de la part d’agents humains. Par la suite, il peut réutiliser ce qu’il a appris dans le passé pour s’attaquer à de nouvelles tâches ou à de nouveaux problèmes.
« ALAN apprend un modèle de monde dans lequel il planifie ses actions et se dirige lui-même en utilisant des objectifs centrés sur l’environnement et sur l’agent », explique Russell Mendonca. « Il réduit également l’espace de travail à la zone d’intérêt en utilisant des détecteurs pré-entraînés prêts à l’emploi. Après l’exploration, le robot peut assembler les compétences découvertes pour exécuter des tâches à une ou plusieurs étapes spécifiées par des images d’objectifs.
Le robot des chercheurs est doté d’un module visuel capable d’estimer les mouvements des objets dans son environnement. Ce module utilise ensuite ces estimations de la façon dont les objets se sont déplacés pour maximiser les changements dans les objets et encourager le robot à interagir avec ces objets.
« Il s’agit d’un signal centré sur l’environnement, puisqu’il ne dépend pas de la croyance de l’agent », souligne Russell Mendonca. « Pour améliorer son estimation du changement d’objets, ALAN doit être curieux. Pour ce faire, ALAN utilise son modèle appris du monde pour identifier les actions pour lesquelles il n’est pas certain du changement d’objet prédit, puis les exécute dans le monde réel. Ce signal centré sur l’agent évolue au fur et à mesure que le robot voit plus de données ».

ALAN fonctionnant dans des environnements de cuisine ludique du monde réel. Crédit : Russell Mendonca, Shikhar Bahl, Deepak Pathak.
Les approches précédemment proposées pour l’exploration des robots autonomes nécessitaient de grandes quantités de données d’apprentissage. Cela empêche ou limite considérablement leur déploiement sur des robots réels. En revanche, l’approche d’apprentissage proposée par Russell Mendonca et ses collègues permet au robot ALAN d’apprendre de manière continue et autonome à accomplir des tâches pendant qu’il explore son environnement.
« Nous montrons qu’ALAN peut apprendre à manipuler des objets avec seulement une centaine de trajectoires en 1 à 2 heures dans deux cuisines de jeu distinctes, sans aucune récompense », assure Russell Mendonca. « Ainsi, l’utilisation d’antécédents visuels peut considérablement accroître l’efficacité de l’apprentissage des robots. Des versions à plus grande échelle de ce système, fonctionnant 24 heures sur 24 et 7 jours sur 7, seront capables d’acquérir continuellement de nouvelles compétences utiles avec une intervention humaine minimale dans tous les domaines, ce qui nous rapprochera des robots intelligents à usage général. »
Lors des premières évaluations, le robot de l’équipe s’est montré remarquablement performant, puisqu’il a été capable d’apprendre rapidement à effectuer de nouvelles tâches de manipulation sans aucune formation ni aide de la part d’agents humains. À l’avenir, ALAN et le cadre qui le sous-tend pourraient ouvrir la voie à la création de systèmes robotiques autonomes plus performants pour l’exploration de l’environnement.
« Ensuite, nous voulons étudier comment utiliser d’autres antécédents pour aider à structurer le comportement du robot, tels que des vidéos d’humains effectuant des tâches et des descriptions linguistiques », conclut Russell Mendonca. « Les systèmes qui peuvent s’appuyer efficacement sur ces données seront en mesure de mieux explorer de manière autonome en opérant dans des espaces structurés. En outre, nous nous intéressons aux systèmes multi-robots qui peuvent mettre en commun leur expérience pour apprendre en permanence. »
https://robo-explorer.github.io/