Cette semaine en IA : Peut-être devrions-nous ignorer les indices de référence de l’IA pour l’instant | TechCrunch

Generated with DALL·E 3

Bienvenue dans la newsletter régulière sur l’IA de TechCrunch! Nous allons faire une petite pause, mais vous pouvez trouver toute notre couverture de l’IA, incluant mes chroniques, nos analyses quotidiennes et nos articles d’actualité, sur TechCrunch. Si vous voulez ces histoires et bien plus encore dans votre boîte de réception chaque jour, inscrivez-vous à nos newsletters quotidiennes ici. Cette semaine, la startup IA du milliardaire Elon Musk, xAI, a publié son dernier modèle d’IA phare, Grok 3, qui alimente les applications de chatbot Grok de l’entreprise. Entraineé sur environ 200 000 GPUs, le modèle bat un certain nombre d’autres modèles de premier plan, y compris OpenAI, sur des références en matière de mathématiques, de programmation et plus encore. Mais que nous disent vraiment ces benchmarks ?

Ici, à TC, nous signalons souvent à contrecœur les chiffres de référence parce qu’ils sont l’un des rares moyens (relativement) standardisés dont l’industrie de l’IA dispose pour mesurer les améliorations de modèle. Les examens de référence de l’IA ont tendance à tester des connaissances ésotériques et donnent des scores globaux qui se rapportent mal à la maîtrise des tâches qui intéressent la plupart des gens. Comme l’a souligné le professeur Ethan Mollick de Wharton dans une série de posts sur X après la présentation de Grok 3 lundi, il existe un “besoin urgent de meilleurs examens et autorités de test indépendants”. Les entreprises d’IA déclarent elles-mêmes les résultats des références plus souvent qu’autrement, comme l’a suggéré Mollick, rendant ces résultats encore plus difficiles à accepter à leur juste valeur.

“Les benchmarks publics sont à la fois ‘meh’ et saturés, laissant une grande partie des tests de l’IA être comme des critiques de nourriture, basés sur le goût”, a écrit Mollick. “Si l’IA est essentielle pour le travail, nous en avons besoin de plus”.

Il ne manque pas de tests indépendants et d’organisations qui proposent de nouveaux benchmarks pour l’IA, mais leur mérite relatif est loin d’être une question réglée dans l’industrie. Certains commentateurs et experts de l’IA proposent d’aligner les indices de référence sur l’impact économique pour assurer leur utilité, tandis que d’autres soutiennent que l’adoption et l’utilité sont les indices de référence ultimes. Ce débat peut durer jusqu’à la fin des temps. Peut-être devrions-nous plutôt, comme le prescrit l’utilisateur X Roon, prêter simplement moins d’attention aux nouveaux modèles et benchmarks sauf en cas de percée technologique majeure en IA. Pour notre santé mentale collective, ce n’est peut-être pas la pire idée, même si elle suscite un certain niveau de FOMO de l’IA.

Comme mentionné ci-dessus, This Week in AI fait une pause. Merci à vous, lecteurs, d’avoir tenu le coup avec nous dans cette montagne russe de voyage. À la prochaine fois.

Partagez cet article
article précédent

« Le manque de compétences de base est handicapant pour s’insérer professionnellement » (CIDJ) – Centre Inffo

article suivant

Quelle organisation de travail idéale pour la Gen Z ?

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles