Qu’est-ce que les “modèles du monde” en IA et pourquoi sont-ils importants ? | TechCrunch

Generated with DALL·E 3

Les modèles du monde, également connus sous le nom de simulateurs du monde, sont promus par certains comme la prochaine grande chose en IA. Le World Labs de la pionnière de l’IA Fei-Fei Li a levé 230 millions de dollars pour construire de “grands modèles du monde”, et DeepMind a engagé l’un des créateurs du générateur de vidéos OpenAI, Sora, pour travailler sur des “simulateurs du monde”. (Sora a été lancé lundi ; voici quelques premières impressions.) Mais que sont exactement ces choses ? Les modèles du monde s’inspirent des modèles mentaux du monde que les humains développent naturellement. Nos cerveaux prennent les représentations abstraites de nos sens et les transforment en une compréhension plus concrète du monde qui nous entoure, produisant ce que nous appelons des “modèles” bien avant que l’IA n’adopte l’expression. Les prédictions que notre cerveau fait sur la base de ces modèles influencent notre perception du monde.

Un article des chercheurs en IA David Ha et Jürgen Schmidhuber donne l’exemple d’un batteur de baseball. Les batteurs ont des millisecondes pour décider comment frapper leur batte – un délai plus court que le temps nécessaire pour que les signaux visuels atteignent le cerveau. La raison pour laquelle ils sont capables de frapper une balle rapide de 100 miles à l’heure est qu’ils peuvent instinctivement prévoir où la balle ira, disent Ha et Schmidhuber. “Pour les joueurs professionnels, tout cela se passe inconsciemment”, écrit le duo de chercheurs. “Leurs muscles réflexes balancent la batte au bon moment et au bon endroit en ligne avec les prédictions de leurs modèles internes. Ils peuvent rapidement agir sur leurs prédictions du futur sans avoir besoin de dérouler consciemment les scénarios futurs possibles pour former un plan”. Certains pensent que ces aspects de raisonnement subconscient des modèles du monde sont des prérequis pour l’intelligence humaine.

“Les modèles du monde pourraient “plus robustement” relier l’IA au monde réel, menant à des avancées non seulement dans la génération de mondes virtuels, mais aussi en robotique et en prise de décision par l’IA.”

Alors que le concept existe depuis des décennies, les modèles du monde ont récemment gagné en popularité en partie à cause de leurs applications prometteuses dans le domaine de la vidéo générative. La plupart, sinon la totalité, des vidéos générées par l’IA s’aventurent dans le territoire de la vallée de l’étrange. Regardez-les assez longtemps et quelque chose de bizarre se produira, comme des membres qui se tordent et se fusionnent l’un dans l’autre. Alors qu’un modèle génératif formé sur des années de vidéos pourrait prédire avec précision qu’un ballon de basket rebondit, il n’a en réalité aucune idée de pourquoi – tout comme les modèles linguistiques ne comprennent pas vraiment les concepts derrière les mots et les phrases. Mais un modèle de monde qui a même une compréhension de base de pourquoi le basket rebondit comme il le fait sera meilleur à le montrer faire cela.

Pour permettre ce type de perspicacité, les modèles du monde sont formés sur une gamme de données, y compris des photos, de l’audio, des vidéos et du texte, dans le but de créer des représentations internes de comment le monde fonctionne, et la capacité de raisonner sur les conséquences des actions. “Un spectateur s’attend à ce que le monde qu’il observe se comporte de manière semblable à sa réalité”, a déclaré Alex Mashrabov, ancien chef de l’IA de Snap et PDG de Higgsfield, qui construit des modèles génératifs pour la vidéo. “Si une plume tombe avec le poids d’une enclume ou si une boule de bowling se propulse à des centaines de pieds dans les airs, c’est choquant et sort le spectateur de l’instant. Avec un modèle du monde fort, au lieu d’un créateur définissant comment chaque objet est censé bouger – ce qui est fastidieux, encombrant et une mauvaise utilisation du temps – le modèle comprendra cela.” Mais la génération de meilleures vidéos n’est que la partie visible de l’iceberg pour les modèles du monde.

Les chercheurs, y compris le scientifique en chef de l’IA de Meta, Yann LeCun, disent que les modèles pourraient un jour être utilisés pour des prévisions et des planifications sophistiquées dans le domaine numérique et physique. Dans une conférence plus tôt cette année, LeCun a décrit comment un modèle du monde pourrait aider à atteindre un objectif souhaité par le raisonnement. Un modèle avec une représentation de base d’un “monde” (par exemple, une vidéo d’une chambre sale), étant donné un objectif (une chambre propre), pourrait trouver une séquence d’actions pour atteindre cet objectif (envoyer des aspirateurs pour balayer, nettoyer la vaisselle, vider les poubelles) non pas parce que c’est un modèle qu’il a observé mais parce qu’il sait à un niveau plus profond comment passer de sale à propre. “Nous avons besoin de machines qui comprennent le monde ; [des machines] qui peuvent se souvenir des choses, qui ont de l’intuition, du bon sens – des choses qui peuvent raisonner et planifier au même niveau que les humains”, a déclaré LeCun. “Malgré ce que vous pourriez avoir entendu de certaines des personnes les plus enthousiastes, les systèmes d’IA actuels ne sont pas capables de faire tout cela”.

Partagez cet article
article précédent

Le Parlement prolonge l’expérimentation d’un dispositif de “travail à temps partagé”

article suivant

Des toitures végétalisées pour épurer les eaux grises

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles