Lorsqu’une entreprise lance un nouveau générateur de vidéos IA, il ne faut pas longtemps avant que quelqu’un l’utilise pour réaliser une vidéo de l’acteur Will Smith en train de manger des spaghettis. C’est devenu une sorte de mème, mais aussi un benchmark : voir si un nouveau générateur de vidéos peut rendre de manière réaliste Smith en train de déguster un bol de nouilles. Smith lui-même a parodié la tendance dans un post Instagram en février. Google Veo 2 l’a fait. Nous mangeons enfin des spaghettis.
Will Smith et les pâtes ne sont qu’un des nombreux benchmark « non officiels » qui ont pris d’assaut la communauté de l’IA en 2024. Un développeur de 16 ans a créé une application qui donne le contrôle de l’IA à Minecraft et teste sa capacité à concevoir des structures. Ailleurs, un programmeur britannique a créé une plateforme où l’IA joue à des jeux comme Pictionary et Connect 4 entre eux. Ce n’est pas comme s’il n’y avait pas de tests plus académiques de la performance d’une IA. Alors pourquoi les plus étranges ont-ils explosé ?
Les benchmarks d’IA insolites comme Connect 4, Minecraft, et Will Smith mangeant des spaghettis ne sont certainement pas empiriques – ni même totalement généralisables. Mais ils sont divertissants et faciles à comprendre.
Pour l’un, de nombreux benchmarks de l’IA ne disent pas grand-chose à la personne moyenne. Les entreprises citent souvent la capacité de leur IA à répondre à des questions sur les examens de l’Olympiade de mathématiques ou à trouver des solutions plausibles à des problèmes de niveau doctorat. Pourtant, la plupart des gens – moi y compris – utilisent des chatbots pour des choses comme répondre à des emails et faire de la recherche basique. Les mesures sectorielles crowdsourcées ne sont pas nécessairement meilleures ou plus informatives.
Un expert avec qui j’ai discuté des benchmarks d’IA a suggéré que la communauté de l’IA se concentre sur les impacts en aval de l’IA au lieu de sa capacité dans des domaines étroits. C’est sensé. Mais j’ai le sentiment que les benchmarks étranges ne vont pas disparaître de sitôt. Non seulement ils sont divertissants – qui n’aime pas voir l’IA construire des châteaux Minecraft ? – mais ils sont faciles à comprendre. Et comme mon collègue Max Zeff l’a écrit récemment, l’industrie continue de lutter pour distiller une technologie aussi complexe que l’IA en marketing digestible. La seule question à mon avis est : quels nouveaux benchmarks étranges deviendront viraux en 2025 ?