Physical Intelligence, une startup américaine basée à San Francisco et spécialisée dans la robotique, a publié jeudi de nouvelles recherches révélant que son dernier modèle peut diriger des robots pour réaliser des tâches pour lesquelles ils n’ont pas été explicitement entraînés. Ce progrès, qui a surpris même ses propres chercheurs, représente une étape significative vers le développement d’un cerveau robotique à usage général, capable d’être dirigé par des instructions simples en langage naturel et de réussir dans des contextes inconnus.
Le modèle, baptisé π0.7, démontre la capacité de généralisation compositionnelle — c’est-à-dire la capacité à combiner des compétences apprises dans différents contextes pour résoudre des problèmes inédits. Contrairement à l’approche traditionnelle, qui consiste à entraîner des modèles spécialisés pour chaque tâche spécifique, π0.7 remodèle cette logique en permettant aux robots de synthétiser des connaissances disparates pour effectuer des actions nouvelles, un phénomène que ses créateurs comparent à celui des grands modèles de langage comme GPT-3.
Les capacités de généralisation du modèle semblent s’accroître de manière exponentielle, ce qui pourrait transformer la façon dont nous concevons la robotique.
Une démonstration particulièrement marquante concerne un friteuse à air que le modèle n’avait quasiment jamais vue lors de l’entraînement. Les chercheurs ont constaté que le robot, en combinant deux épisodes d’apprentissage limités — pousser la friteuse pour la fermer, ou insérer une bouteille en plastique comme indiqué dans une source ouverte — avait synthétisé ces fragments, complétés par des données préentraînées sur le web, pour comprendre comment utiliser cet appareil. Avec une simple instruction verbale étape par étape, le robot a réussi à manipuler la friteuse pour cuisiner une patate douce, une performance qu’il aurait été impensable d’attendre il y a encore peu.
Ce qui importe ici, c’est la capacité du robot à apprendre et à s’améliorer en temps réel grâce à un simple coaching verbal, sans nécessiter de nouvelle collecte de données ni de retrainage du modèle. Cela ouvre la voie à une utilisation plus flexible et adaptable des robots dans différents environnements, une perspective prometteuse pour leur déploiement dans des contextes variés et changeants.
Ce que cette avancée suggère, c’est que la robotique pourrait bientôt connaître un tournant similaire à celui des modèles de langage, où les capacités commencent à évoluer de manière imprévisible mais profondément transformative.
Malgré ces résultats impressionnants, les chercheurs restent prudents. Ils reconnaissent que leur modèle ne peut actuellement pas exécuter des tâches complexes en plusieurs étapes à partir d’une instruction unique, comme « faire du toast ». Il faut plutôt le guider étape par étape, et ils insistent sur le fait que ces démonstrations sont encore à un stade expérimental, sans validation indépendante à travers des benchmarks standardisés en robotique. Sur le plan commercial, la société a déjà levé plus d’un milliard de dollars et a été valorisée à 5,6 milliards de dollars, avec des discussions pour une nouvelle levée qui pourrait presque doubler cette valorisation.
