Les gens évaluent l’IA en lui faisant faire rebondir des balles dans des formes rotatives | TechCrunch

Generated with DALL·E 3

La liste des repères informels et originaux de l’IA ne cesse de s’allonger. Ces derniers jours, certains membres de la communauté de l’IA sur X se sont passionnés pour un test sur la façon dont différents modèles d’IA, en particulier les modèles dits de raisonnement, gèrent des invites comme celle-ci : “Écrivez un script Python pour une balle jaune rebondissant à l’intérieur d’une forme. Faites tourner la forme lentement et assurez-vous que la balle reste à l’intérieur de la forme”. Certains modèles sont plus performants que d’autres sur ce benchmark “balle dans une forme rotative”.

Selon un utilisateur sur X, le R1 de DeepSeek, un laboratoire IA chinois, disponible gratuitement, a surpassé le mode professionnel o1 d’OpenAI, qui coûte 200 $ par mois dans le cadre du plan OpenAI’s ChatGPT Pro. D’après un autre utilisateur de X, les modèles Claude 3.5 Sonnet d’Anthropic et Gemini 1.5 Pro de Google ont mal jugé la physique, ce qui a provoqué la sortie de la balle de la forme. D’autres utilisateurs ont signalé que le modèle Gemini 2.0 Flash Thinking Experimental de Google et même le GPT-4o plus ancien d’OpenAI ont réussi cette évaluation en une seule fois.

“Les évaluations virales comme celle-ci mettent en évidence le problème insoluble de la création de systèmes de mesure utiles pour les modèles d’IA. Il est souvent difficile de dire ce qui différencie un modèle d’un autre, en dehors des repères ésotériques qui ne sont pas pertinents pour la plupart des gens”.

Mais qu’est-ce que cela prouve qu’une IA peut ou ne peut pas coder une forme rotative contenant une balle ? Eh bien, simuler un rebond de balle est un défi classique de programmation. Les simulations précises intègrent des algorithmes de détection de collision qui tentent d’identifier quand deux objets (par exemple une balle et le côté d’une forme) entrent en collision. Des algorithmes mal écrits peuvent affecter les performances de la simulation ou entrainer des erreurs physiques flagrantes.

N8 Programs, un chercheur résident auprès de la startup IA Nous Research, affirme avoir passé environ deux heures pour programmer une balle rebondissant dans un heptagone rotatif à partir de zéro. Selon lui, “il faut suivre plusieurs systèmes de coordonnées, comment les collisions sont gérées dans chaque système et concevoir le code dès le début pour être robuste”. Cependant, alors que les balles rebondissantes et les formes rotatives sont un test raisonnable des compétences en programmation, ce ne sont pas des benchmarks d’IA très empiriques. Même de légères variations dans le prompt peuvent – et ont – induit en erreur des résultats différents.

C’est pourquoi certains utilisateurs sur X rapportent avoir plus de chance avec o1, tandis que d’autres disent que R1 est insuffisant. Plusieurs efforts sont en cours pour construire de meilleurs tests, comme le benchmark ARC-AGI et le “Dernier Examen de l’Humanité”. Nous verrons comment ceux-ci se comportent – et en attendant, nous regarderons des GIFs de balles rebondissant dans des formes rotatives.

Partagez cet article
article précédent

Stargate utilisera des panneaux solaires et des batteries pour alimenter une entreprise d’IA d’une valeur de 100 milliards de dollars | TechCrunch

article suivant

Invoquant le Code du Travail, Saint-Jean-de-Maurienne prend un arrêté contre le “burn-out” du Père Noël

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles