Ces chercheurs ont utilisé les questions du Sunday Puzzle de NPR pour évaluer les modèles d’intelligence artificielle | TechCrunch

Generated with DALL·E 3

Chaque dimanche, Will Shortz, le maître des mots croisés du New York Times et animateur de NPR, met au défi des milliers d’auditeurs lors d’un segment de longue date appelé le Sunday Puzzle. Bien qu’écrites pour être solubles sans trop de connaissances préalables, ces énigmes sont généralement un défi, même pour les concurrents les plus doués. C’est pourquoi certains experts pensent qu’ils sont un excellent moyen de tester les limites des capacités de résolution de problèmes de l’IA. Dans une nouvelle étude, une équipe de chercheurs issus du Wellesley College, d’Oberlin College, de l’University of Texas à Austin, de Northeastern University et de la start-up Cursor a créé un repère d’IA utilisant des énigmes tirées des épisodes du Sunday Puzzle.

Arjun Guha, étudiant en informatique à la Northeastern et co-auteur de l’étude, a déclaré à TechCrunch : “Nous voulions développer un benchmark avec des problèmes que les humains peuvent comprendre avec seulement des connaissances générales”. L’industrie de l’IA est actuellement dans une sorte de dilemme en matière de benchmarking. La plupart des tests couramment utilisés pour évaluer les modèles d’IA cherchent à mesurer des compétences, comme la compétence en mathématiques et en science au niveau du doctorat, qui ne sont pas pertinentes pour l’utilisateur moyen.

“Les avantages d’un jeu-questionnaire radiophonique public comme le Sunday Puzzle sont qu’il ne teste pas les connaissances ésotériques et que les défis sont formulés de telle sorte que les modèles ne peuvent pas se baser sur la “mémoire par cœur” pour les résoudre”, a expliqué Guha.

Les quiz du Sunday Puzzle sont centrés sur les États-Unis et en anglais uniquement. Et comme les quiz sont disponibles publiquement, il est possible que les modèles formés sur eux puissent “tricher” en quelque sorte, bien que Guha affirme qu’il n’a pas vu de preuve de cela. “De nouvelles questions sont publiées chaque semaine, et nous pouvons nous attendre à ce que les dernières questions soient vraiment inédites”, a-t-il ajouté. “Nous avons l’intention de maintenir le benchmark frais et de suivre comment la performance du modèle évolue dans le temps”.

Sur le benchmark des chercheurs, qui se compose d’environ 600 énigmes du Sunday Puzzle, les modèles de raisonnement tels que o1 et DeepSeek’s R1 surpassent largement le reste. S’agissant de modèles de raisonnement, ils vérifient minutieusement leurs résultats avant de les donner, ce qui les aide à éviter certains des écueils qui entravent normalement les modèles d’IA. L’inconvénient est que les modèles de raisonnement mettent un peu plus de temps à arriver à des solutions – généralement quelques secondes à quelques minutes de plus.

“Vous n’avez pas besoin d’un doctorat pour être bon en raisonnement, donc il devrait être possible de concevoir des benchmarks de raisonnement qui n’exigent pas de connaissances au niveau du doctorat”, a déclaré Guha. “Un benchmark de plus grande portée permet à un plus grand nombre de chercheurs de comprendre et d’analyser les résultats, ce qui peut à son tour conduire à de meilleures solutions à l’avenir. De plus, comme les modèles de pointe sont de plus en plus déployés dans des contextes qui affectent tout le monde, nous pensons que tout le monde devrait pouvoir comprendre ce que ces modèles sont – et ne sont pas – capables de faire.”

Partagez cet article
article précédent

Comment mieux gérer le développement des compétences ?

article suivant

88% des travailleurs estiment que leur employeur n’investit pas assez dans leurs compétences

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles