2 min de lecture

Regardez un robot naviguer dans les bureaux de Google DeepMind en utilisant Gemini | TechCrunch

12 juillet 2024

Generated with DALL·E 3

L’IA générative a déjà montré beaucoup de promesses dans les robots. Les applications incluent les interactions en langage naturel, l’apprentissage des robots, la programmation sans code et même le design. Cette semaine, l’équipe Robotics de Google’s DeepMind met en lumière un autre potentiel point de rencontre entre les deux disciplines : la navigation. Dans un document intitulé “Mobility VLA : Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs”, l’équipe démontre comment elle a mis en œuvre Google Gemini 1.5 Pro pour enseigner à un robot à répondre aux commandes et à se déplacer dans un bureau.

Naturellement, DeepMind a utilisé certains des robots de tous les jours qui traînent depuis que Google a fermé le projet au milieu de licenciements généralisés l’année dernière. Dans une série de vidéos liées au projet, les employés de DeepMind commencent par un assistant intelligent de style “OK, Robot”, avant de demander au système d’effectuer différentes tâches dans l’espace de bureau de 9 000 pieds carrés.

“Dans une vidéo exemplaire, un employé de Google demande au robot de l’emmener quelque part pour dessiner. “OK”, répond le robot, portant un nœud papillon jaune vif, “donnez-moi une minute. Je réfléchis avec Gemini…” Le robot prend ensuite l’initiative de conduire l’humain à un tableau blanc de la taille d’un mur.”

Dans une deuxième vidéo, une autre personne demande au robot de suivre les instructions sur le tableau blanc. Une carte simple montre au robot comment se rendre dans la “zone bleue”. Encore une fois, le robot réfléchit un moment avant de prendre un long chemin vers ce qui s’avère être une zone de test de robotique. “J’ai suivi avec succès les instructions sur le tableau blanc”, annonce le robot avec un niveau de confiance en soi dont la plupart des humains peuvent seulement rêver.

Avant ces vidéos, les robots ont été familiarisés avec l’espace en utilisant ce que l’équipe appelle “Multimodal Instruction Navigation with demonstration Tours (MINT)”. Concrètement, cela signifie faire marcher le robot dans le bureau tout en indiquant les différents repères avec la parole. Ensuite, l’équipe utilise une Vision-Language-Action (VLA) hiérarchisée pour “combiner la compréhension de l’environnement et la puissance du raisonnement de bon sens”. Une fois les processus combinés, le robot peut réagir aux commandes écrites et dessinées, ainsi qu’aux gestes.

Google annonce que le robot a eu un taux de réussite d’environ 90% sur plus de 50 interactions avec les employés.

Source: Watch a robot navigate the Google DeepMind offices using Gemini