2 min de lecture

Est-ce que xAI a menti à propos des performances de Grok 3? | TechCrunch

23 février 2025

Generated with DALL·E 3

Le débat sur les repères de l’intelligence artificielle (IA) et la façon dont ils sont rapportés par les laboratoires d’IA déborde maintenant dans le domaine public. Cette semaine, un employé d’OpenAI a accusé la société d’IA d’Elon Musk, xAI, de publier des résultats de référence trompeurs pour son dernier modèle d’IA, Grok 3. L’un des cofondateurs de xAI, Igor Babushkin, a insisté sur le fait que la société avait raison. La vérité se trouve quelque part entre les deux. Dans un post sur le blog de xAI, la société a publié un graphique montrant les performances de Grok 3 sur AIME 2025, une série de questions de mathématiques difficiles tirées d’un récent examen de mathématiques sur invitation. Certains experts ont remis en question la validité de AIME en tant que référence pour l’IA. Néanmoins, AIME 2025 et les versions plus anciennes du test sont couramment utilisées pour tester la capacité mathématique d’un modèle.

Le graphique de xAI montrait deux variantes de Grok 3, Grok 3 Reasoning Beta et Grok 3 mini Reasoning, battant le modèle le plus performant disponible d’OpenAI, o3-mini-high, sur AIME 2025. Mais les employés d’OpenAI sur x ont rapidement fait remarquer que le graphique de xAI n’incluait pas le score d’o3-mini-high sur AIME 2025 à “cons@64”. Qu’est-ce que “cons@64”, demanderez-vous peut-être? Eh bien, c’est l’abréviation de “consensus@64”, et cela donne à un modèle 64 tentatives pour répondre à chaque problème d’un référentiel et prend les réponses générées le plus souvent comme réponses finales. Comme vous pouvez l’imaginer, cons@64 a tendance à augmenter considérablement les scores de référence des modèles, et son omission d’un graphique pourrait faire apparaître comme si un modèle en surpassait un autre alors qu’en réalité, ce n’est pas le cas.

L’omission de la mesure Cons@64 dans les graphes de performances pourrait induire en erreur quant à la véritable efficacité des modèles d’IA.

Grok 3 Reasoning Beta et Grok 3 mini Reasoning’s scores pour AIME 2025 à “@1” – ce qui signifie le premier score que les modèles ont obtenu sur la référence – sont inférieurs au score d’o3-mini-high. Grok 3 Reasoning Beta est également légèrement à la traîne derrière le modèle o1 d’OpenAI réglé sur “moyen” informatique. Pourtant, xAI fait de la publicité pour Grok 3 comme le “IA le plus intelligent du monde”. Babushkin a fait valoir sur X que OpenAI avait publié des graphiques de référence similaires trompeurs dans le passé – quoique des graphiques comparant les performances de ses propres modèles.

Une partie plus neutre dans le débat a dressé un graphique plus “précis” montrant les performances de presque tous les modèles à cons@64. Cependant, comme le souligne le chercheur en IA Nathan Lambert dans une publication, la métrique la plus importante reste un mystère: le coût informatique (et monétaire) qu’il a fallu à chaque modèle pour atteindre son meilleur score. Cela montre à quel point la plupart des repères de l’IA communiquent peu sur les limites des modèles – et leurs forces.

Source: Did xAI lie about Grok 3’s benchmarks?

article précédent

DeepSeek va ouvrir le code source de parties de ses services en ligne | TechCrunch

article suivant

Est-ce que xAI a menti à propos des performances de Grok 3? | TechCrunch

DeepSeek va ouvrir le code source de parties de ses services en ligne | TechCrunch

Disrupt 2025 : Les prix les plus bas de l’année se terminent dans 7 jours | TechCrunch

Laisser un commentaire Annuler la réponse

Claude d’Anthropic est devenu un mauvais chef d’entreprise dans une expérience qui est devenue “bizarre”

Meta en pourparlers pour acquérir la startup de clonage vocal Play AI

Présentation des 11 opérateurs de compétences – Opco – Centre Inffo

Certifications professionnelles : un cadre réglementaire pour l’habilitation de partenaires – Centre Inffo

En seulement 3 mois, le PDG de CoreWeave, autrefois un adepte du mining de cryptomonnaies, devient décabillionnaire

Est-ce que xAI a menti à propos des performances de Grok 3? | TechCrunch

Partagez cet article

DeepSeek va ouvrir le code source de parties de ses services en ligne | TechCrunch

Disrupt 2025 : Les prix les plus bas de l’année se terminent dans 7 jours | TechCrunch

Laisser un commentaire Annuler la réponse

Lire plus d'articles