L’agent SIMA 2 de Google utilise Gemini pour raisonner et agir dans des mondes virtuels

Illustration générée par intelligence artificielle

Google DeepMind a partagé jeudi un aperçu de recherche de SIMA 2, la prochaine génération de son agent d’IA généraliste qui intègre les capacités linguistiques et de raisonnement de Gemini, le grand modèle linguistique de Google. Cette avancée permet à SIMA 2 d’aller au-delà du simple suivi d’instructions pour comprendre et interagir avec son environnement. Comme beaucoup de projets de DeepMind, y compris AlphaFold, la première version de SIMA a été formée sur des centaines d’heures de données de jeux vidéo pour apprendre à jouer à plusieurs jeux 3D comme un humain, y compris certains jeux auxquels il n’avait pas été formé. La version initiale, dévoilée en mars 2024, pouvait suivre des instructions de base dans un large éventail d’environnements virtuels, mais n’avait qu’un taux de réussite de 31 % pour atteindre des tâches complexes, contre 71 % pour les humains.

« SIMA 2 représente un changement de paradigme et une amélioration des capacités par rapport à SIMA 1 », a déclaré Joe Marino, scientifique principal de la recherche chez DeepMind, lors d’une conférence de presse. « C’est un agent plus général qui peut accomplir des tâches complexes dans des environnements auparavant inconnus. C’est également un agent auto-améliorant. Il peut en effet s’améliorer sur la base de sa propre expérience, ce qui constitue un pas vers des robots plus polyvalents et des systèmes d’IA générale. » DeepMind affirme que SIMA 2 double les performances de SIMA 1.

SIMA 2 met en lumière la capacité de l’IA à apprendre de manière autonome et à interagir de manière plus intuitive avec son environnement.

SIMA 2 est propulsé par le modèle Gemini 2.5, et l’IA générale (AGI) se définit comme un système capable d’effectuer un large éventail de tâches intellectuelles avec la capacité d’apprendre de nouvelles compétences et de généraliser ses connaissances dans différents domaines. Les chercheurs de DeepMind insistent sur l’importance de travailler avec des “agents incarnés” pour atteindre une intelligence généralisée. Marino a expliqué qu’un agent incarné interagit avec un monde physique ou virtuel via un corps, en observant des entrées et en prenant des mesures, tout comme un robot ou un humain, tandis qu’un agent non incarné pourrait interagir avec votre calendrier, prendre des notes ou exécuter du code.

Jane Wang, scientifique de recherche chez DeepMind avec une formation en neurosciences, a expliqué à TechCrunch que SIMA 2 va bien au-delà du simple gameplay. « Nous lui demandons de comprendre ce qui se passe, de comprendre ce que l’utilisateur lui demande de faire, puis d’être capable de répondre d’une manière sensée qui est en réalité assez difficile », a-t-elle déclaré. En intégrant Gemini, SIMA 2 a doublé les performances de son prédécesseur, unissant les compétences de langage et de raisonnement avancées de Gemini avec les compétences incarnées développées par l’entraînement.

Marino a démontré SIMA 2 dans « No Man’s Sky », où l’agent a décrit son environnement – une surface planétaire rocheuse – et a déterminé ses prochaines étapes en reconnaissant et en interagissant avec un balise de détresse. SIMA 2 utilise également Gemini pour raisonner en interne. Dans un autre jeu, lorsqu’on lui a demandé de marcher vers la maison qui est de la couleur d’une tomate mûre, l’agent a montré son raisonnement : les tomates mûres sont rouges, donc je devrais aller à la maison rouge. Avec des instructions basées sur des emojis, l’agent peut également suivre des commandes simples telles que « 🪓🌲 », et il ira couper un arbre.

Enfin, DeepMind perçoit SIMA 2 comme un pas supplémentaire vers le déverrouillage de robots plus polyvalents. « Si nous considérons ce que doit faire un système pour réaliser des tâches dans le monde réel, comme un robot, je pense qu’il y a deux composants principaux », a expliqué Frederic Besse, ingenieur senior en recherche chez DeepMind. « D’une part, il faut une compréhension de haut niveau du monde réel et de ce qui doit être fait, ainsi qu’un raisonnement approprié. » Cela dit, l’équipe n’a pas fourni de calendrier spécifique pour l’implémentation de SIMA 2 dans des systèmes robotiques physiques, mais Wang a mentionné que l’objectif est de montrer au monde les avancées de DeepMind et d’explorer les collaborations et les utilisations potentielles.

Partagez cet article
article précédent

Des fondateurs adolescents lèvent 6 millions de dollars pour réinventer les pesticides grâce à l’IA — et convainquent Paul Graham de les soutenir

article suivant

Google ajoute l’outil ‘Deep Research’ et le support de nouveaux types de fichiers à NotebookLM

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles