On pensait que Pokémon était un benchmark difficile pour l’IA? Un groupe de chercheurs soutient que Super Mario Bros. est encore plus dur. Le Hao AI Lab, organisme de recherche de l’Université de Californie à San Diego, a plongé l’IA dans des parties en direct de Super Mario Bros. vendredi. Claude 3.7 d’Anthropic s’est le mieux comporté, suivi de Claude 3.5. Gemini 1.5 Pro de Google et GPT-40 de OpenAI ont eu du mal. Il ne s’agissait pas exactement de la même version de Super Mario Bros. que celle sortie en 1985, il faut préciser. Le jeu fonctionnait dans un émulateur et s’intégrait à une plateforme, GamingAgent, pour donner le contrôle de Mario à l’IA.
GamingAgent, développé par Hao, donnait à l’IA des instructions de base comme “Si un obstacle ou un ennemi est proche, déplace-toi/saute à gauche pour l’éviter” et des captures d’écran in-game. L’IA a ensuite généré des commandes sous forme de code Python pour contrôler Mario. Néanmoins, Hao affirme que le jeu a forcé chaque modèle à “apprendre” à planifier des manœuvres complexes et à élaborer des stratégies de jeu.
Il est intéressant de noter que le laboratoire a constaté que les modèles de raisonnement, comme o1 de OpenAI, qui “réfléchissent” à des problèmes étape par étape pour arriver à des solutions, ont moins bien performé que les modèles “non-raisonnants”, malgré une performance générale supérieure sur la plupart des benchmarks.
L’une des principales raisons pour lesquelles les modèles de raisonnement ont du mal à jouer à des jeux en temps réel comme celui-ci est qu’ils prennent généralement du temps — quelques secondes — pour décider des actions, selon les chercheurs. Dans Super Mario Bros., le timing est crucial. Une seconde peut faire la différence entre un saut réussi et une chute mortelle.
Les jeux sont utilisés pour évaluer l’IA depuis des décennies. Mais certains experts ont remis en question l’idée de lier les compétences de jeu de l’IA à l’évolution technologique. Contrairement au monde réel, les jeux ont tendance à être abstraits et relativement simples, et ils fournissent une quantité théoriquement infinie de données pour entraîner l’IA. Les benchmarks de jeu spectaculaires récents révèlent ce qu’Andrej Karpathy, chercheur et membre fondateur d’OpenAI, a appelé une “crise d’évaluation”.
“Je ne sais vraiment pas quelles [IA] mesures regarder actuellement”, a-t-il écrit dans un post sur X. “TLDR ma réaction est que je ne sais vraiment pas à quel point ces modèles sont bons actuellement.” Au moins, nous pouvons regarder l’IA jouer à Mario.