Le débat sur les repères de l’intelligence artificielle (IA) et la façon dont ils sont rapportés par les laboratoires d’IA déborde maintenant dans le domaine public. Cette semaine, un employé d’OpenAI a accusé la société d’IA d’Elon Musk, xAI, de publier des résultats de référence trompeurs pour son dernier modèle d’IA, Grok 3. L’un des cofondateurs de xAI, Igor Babushkin, a insisté sur le fait que la société avait raison. La vérité se trouve quelque part entre les deux. Dans un post sur le blog de xAI, la société a publié un graphique montrant les performances de Grok 3 sur AIME 2025, une série de questions de mathématiques difficiles tirées d’un récent examen de mathématiques sur invitation. Certains experts ont remis en question la validité de AIME en tant que référence pour l’IA. Néanmoins, AIME 2025 et les versions plus anciennes du test sont couramment utilisées pour tester la capacité mathématique d’un modèle.
Le graphique de xAI montrait deux variantes de Grok 3, Grok 3 Reasoning Beta et Grok 3 mini Reasoning, battant le modèle le plus performant disponible d’OpenAI, o3-mini-high, sur AIME 2025. Mais les employés d’OpenAI sur x ont rapidement fait remarquer que le graphique de xAI n’incluait pas le score d’o3-mini-high sur AIME 2025 à “cons@64”. Qu’est-ce que “cons@64”, demanderez-vous peut-être? Eh bien, c’est l’abréviation de “consensus@64”, et cela donne à un modèle 64 tentatives pour répondre à chaque problème d’un référentiel et prend les réponses générées le plus souvent comme réponses finales. Comme vous pouvez l’imaginer, cons@64 a tendance à augmenter considérablement les scores de référence des modèles, et son omission d’un graphique pourrait faire apparaître comme si un modèle en surpassait un autre alors qu’en réalité, ce n’est pas le cas.
L’omission de la mesure Cons@64 dans les graphes de performances pourrait induire en erreur quant à la véritable efficacité des modèles d’IA.
Grok 3 Reasoning Beta et Grok 3 mini Reasoning’s scores pour AIME 2025 à “@1” – ce qui signifie le premier score que les modèles ont obtenu sur la référence – sont inférieurs au score d’o3-mini-high. Grok 3 Reasoning Beta est également légèrement à la traîne derrière le modèle o1 d’OpenAI réglé sur “moyen” informatique. Pourtant, xAI fait de la publicité pour Grok 3 comme le “IA le plus intelligent du monde”. Babushkin a fait valoir sur X que OpenAI avait publié des graphiques de référence similaires trompeurs dans le passé – quoique des graphiques comparant les performances de ses propres modèles.
Une partie plus neutre dans le débat a dressé un graphique plus “précis” montrant les performances de presque tous les modèles à cons@64. Cependant, comme le souligne le chercheur en IA Nathan Lambert dans une publication, la métrique la plus importante reste un mystère: le coût informatique (et monétaire) qu’il a fallu à chaque modèle pour atteindre son meilleur score. Cela montre à quel point la plupart des repères de l’IA communiquent peu sur les limites des modèles – et leurs forces.