Cette semaine, le MIT a présenté un nouveau modèle pour la formation des robots. Plutôt que de recourir à l’ensemble standard de données ciblées utilisées pour enseigner de nouvelles tâches aux robots, la méthode voit grand, en imitant les vastes trésors d’informations utilisés pour former de grands modèles de langage (LLM). Les chercheurs notent que l’apprentissage par imitation, où l’agent apprend en suivant une personne accomplissant une tâche, peut échouer lorsque de petits défis sont introduits. Ceux-ci peuvent être des choses comme l’éclairage, un environnement différent ou de nouveaux obstacles. Dans ces scénarios, les robots n’ont tout simplement pas assez de données à leur disposition pour s’adapter.
L’équipe s’est inspirée de modèles tels que le GPT-4 pour adopter une approche de résolution de problèmes basée sur la force brute des données. “Dans le domaine du langage, les données ne sont que des phrases”, dit Lirui Wang, l’auteur principal de la nouvelle publication. “En robotique, compte tenu de toute l’hétérogénéité des données, si vous voulez préformer de manière similaire, nous avons besoin d’une architecture différente”. L’équipe a introduit une nouvelle architecture appelée Transformateurs Pré-entraînés Hétérogènes (HPT), qui rassemble les informations provenant de différents capteurs et environnements. Un transformateur a ensuite été utilisé pour regrouper les données en modèles de formation. Plus le transformateur est grand, meilleurs sont les résultats. Les utilisateurs entrent ensuite la conception du robot, la configuration, et le travail qu’ils veulent accomplir.
“Notre rêve est d’avoir un cerveau de robot universel que vous pourriez télécharger et utiliser pour votre robot sans aucune formation du tout”, a déclaré David Held, professeur associé à la CMU, à propos de la recherche.
“Alors que nous sommes juste à l’étape initiale, nous allons continuer à pousser fort et espérer que l’augmentation de l’échelle conduit à une percée dans les politiques robotiques, comme cela a été le cas avec les grands modèles de langage. La recherche a été financée, en partie, par le Toyota Research Institute. L’année dernière, lors de TechCrunch Disrupt, le TRI a présenté une méthode pour former des robots pendant la nuit. Plus récemment, il a conclu un partenariat crucial qui unira ses recherches sur l’apprentissage des robots au matériel de Boston Dynamics.