Google DeepMind ouvre l’accès à Project Genie, son outil d’intelligence artificielle conçu pour créer des mondes interactifs à partir de prompts textuels ou d’images. À partir de ce jeudi, les abonnés à Google AI Ultra aux États-Unis peuvent expérimenter cette plateforme expérimentale, alimentée par une combinaison du dernier modèle mondial Genie 3, du modèle de génération d’images Nano Banana Pro, et de Gemini. Ce lancement, cinq mois après la prévisualisation de Genie 3, s’inscrit dans une stratégie plus large visant à recueillir des retours d’utilisateurs et à collecter des données pour améliorer ces modèles. Ces systèmes, appelés modèles mondiaux, génèrent une représentation interne d’un environnement, permettant de prévoir des résultats futurs et de planifier des actions. Plusieurs acteurs dans le domaine de l’IA, dont DeepMind, considèrent ces modèles comme une étape cruciale vers l’intelligence artificielle générale (AGI).
À court terme, DeepMind voit dans ces modèles un potentiel pour le marché du divertissement, notamment dans le jeu vidéo, mais aussi pour former des agents autonomes dans des environnements simulés. La sortie de Project Genie intervient dans un contexte où la compétition autour des modèles mondiaux s’intensifie, avec des initiatives comme Marble de World Labs ou le récent lancement de modèles par la startup Runway. Yann LeCun, ancien scientifique en chef chez Meta, et sa startup AMI Labs, se concentrent également sur ce domaine, illustrant l’intérêt croissant pour ces technologies.
DeepMind espère que plus de personnes pourront accéder à cet outil pour donner leur aperçu et contribuer à son développement.
Les chercheurs de DeepMind, que TechCrunch a interrogés, ont souligné le caractère encore expérimental de Project Genie. L’outil peut produire des mondes parfois impressionnants, mais aussi des résultats confus ou incohérents. Par exemple, il est capable de générer des environnements créatifs inspirés de styles artistiques comme l’aquarelle ou l’anime, mais peine à produire des mondes photoréalistes ou cinématographiques, donnant souvent un rendu proche d’un jeu vidéo plutôt que de la réalité. La plateforme permet de construire des univers à partir de prompts, de modifier des images générées ou même d’utiliser des photos réelles comme point de départ, bien que ces fonctionnalités soient encore perfectibles.
Lors de mes tests, j’ai pu explorer un univers fantaisiste évoquant un château de marshmallows, ou encore un monde inspiré de “Game of Thrones” qui peinait à atteindre un rendu réaliste. La création de mondes interactifs reste limitée, avec des bugs tels que la marche à travers des murs ou des objets qui réagissent de manière incohérente. La navigation pose également problème, avec des touches non réactives ou mal calibrées, reflet des limites de cette version d’expérimentation. Cependant, DeepMind maintient que ces défauts sont temporaires et que l’équipe travaille à une amélioration continue du réalisme et des capacités d’interaction.
Malgré ces imperfections, ce lancement offre un aperçu précieux des possibilités d’une intelligence artificielle capable de générer des environnements numériques détaillés et interactifs, qui pourraient à terme se réutiliser dans divers secteurs tels que le jeu vidéo, la formation ou même la robotique. Selon Fruchter, « Project Genie n’est pas destiné à être un produit final, mais il représente une étape fascinante vers quelque chose d’unique et difficile à reproduire autrement. »
