L’année 2024 s’annonce spectaculaire pour le croisement de l’IA générationnelle, des modèles fondamentaux de grande ampleur et de la robotique. Les possibilités d’application sont sources d’enthousiasme, allant de l’apprentissage à la conception de produits. Les chercheurs de DeepMind Robotics de Google font partie d’une multitude d’équipes qui explorent le potentiel de ce champ. Dans un billet de blog publié aujourd’hui, l’équipe met en avant des recherches en cours destinées à donner à la robotique une meilleure compréhension de ce que nous, les humains, attendons exactement d’elle. Traditionnellement, les robots sont centrés sur l’exécution d’une seule tâche de manière répétée au cours de leur vie. Les robots à usage unique ont tendance à être très efficaces pour cette tâche spécifique, mais rencontrent des difficultés lorsque des modifications ou des erreurs sont introduites involontairement dans le processus.
Le tout nouveau AutoRT est conçu pour utiliser les grands modèles fondamentaux à diverses fins. Dans un exemple standard donné par l’équipe de DeepMind, le système commence par utiliser un modèle de langage visuel (VLM) pour une meilleure conscience de la situation. AutoRT est capable de gérer une flotte de robots travaillant en tandem et équipés de caméras pour obtenir un plan de leur environnement et de l’objet qui s’y trouve. Un grand modèle de langage, quant à lui, suggère des tâches qui peuvent être accomplies par le matériel, y compris son effecteur final. Les LLM sont reconnus par beaucoup comme la clé pour débloquer des robots qui comprennent effectivement des commandes en langage naturel plus complexe, réduisant ainsi le besoin de compétences codées en dur.
“AutoRT représente non seulement une autre étape vers la construction de robots capables de se déplacer avec une précision efficace dans des situations inédites, mais aussi de déverrouiller les connaissances des bases de données existantes.”
Le système a déjà été testé de manière intensive au cours des sept derniers mois environ. AutoRT est capable d’orchestrer jusqu’à 20 robots à la fois et un total de 52 appareils différents. Au total, DeepMind a recueilli environ 77 000 essais, incluant plus de 6 000 tâches. Une autre nouveauté de l’équipe est RT-Trajectory, qui utilise l’entrée vidéo pour l’apprentissage robotique. De nombreuses équipes explorent l’utilisation de vidéos YouTube comme méthode pour former des robots à grande échelle, mais RT-Trajectory ajoute une couche intéressante, en superposant un croquis en deux dimensions du bras en action sur la vidéo.
L’équipe note que “ces trajectoires, sous forme d’images RGB, fournissent des indices visuels pratiques de bas niveau au modèle pendant qu’il apprend ses politiques de contrôle de robot”. DeepMind affirme que cette formation a doublé le taux de réussite de sa formation RT-2, passant de 29% à 63%, sur 41 tâches testées. “RT-Trajectory exploite les informations riches sur le mouvement robotique présentes dans toutes les bases de données de robots, mais actuellement sous-utilisées”, note l’équipe. “RT-Trajectory représente non seulement une nouvelle étape vers la construction de robots capables de bouger avec une précision efficace dans des situations inédites, mais aussi un moyen de débloquer les connaissances issues des bases de données existantes.”