Le Centre à but non lucratif pour la sécurité de l’IA (CAIS) et Scale AI, une entreprise qui propose de nombreux services de développement et d’étiquetage de données IA, ont publié un nouveau benchmark difficile pour les systèmes d’IA en pointe. Ce benchmark, baptisé “Le dernier examen de l’humanité”, comprend des milliers de questions issues de la foule sur des sujets tels que les mathématiques, les sciences humaines et les sciences naturelles.
Pour rendre l’évaluation plus difficile, les questions existent dans plusieurs formats, y compris des formats qui incorporent des schémas et des images. Dans une étude préliminaire, pas un seul système d’IA phare disponible au public n’a réussi à obtenir un meilleur score que 10% au “Dernier examen de l’humanité”.
Le CAIS et Scale AI ont déclaré leur intention d’ouvrir le benchmark à la communauté de recherche afin que les chercheurs puissent “creuser plus profondément dans les variations” et évaluer de nouveaux modèles d’IA.
CAIS et Scale AI ont pour plan d’ouvrir ce benchmark à la communauté de recherche, permettant ainsi aux chercheurs de “creuser plus profondément dans les variations” et d’évaluer de nouveaux modèles d’IA. C’est une approche inclusive qui ouvre la voie à des progrès plus rapides et plus vastes dans le domaine de l’intelligence artificielle.
Il est évident que l’IA a encore du chemin à parcourir pour s’aligner sur les capacités humaines. Cependant, ce nouveau benchmark offre une plate-forme pour l’amélioration continue, s’attaquant aux défis plus complexes de l’IA d’une manière qui pourrait être bénéfique pour l’ensemble de l’industrie.