Même les meilleures IA ne peuvent pas battre ce nouveau benchmark | TechCrunch

Generated with DALL·E 3

Le Centre à but non lucratif pour la sécurité de l’IA (CAIS) et Scale AI, une entreprise qui propose de nombreux services de développement et d’étiquetage de données IA, ont publié un nouveau benchmark difficile pour les systèmes d’IA en pointe. Ce benchmark, baptisé “Le dernier examen de l’humanité”, comprend des milliers de questions issues de la foule sur des sujets tels que les mathématiques, les sciences humaines et les sciences naturelles.

Pour rendre l’évaluation plus difficile, les questions existent dans plusieurs formats, y compris des formats qui incorporent des schémas et des images. Dans une étude préliminaire, pas un seul système d’IA phare disponible au public n’a réussi à obtenir un meilleur score que 10% au “Dernier examen de l’humanité”.

Le CAIS et Scale AI ont déclaré leur intention d’ouvrir le benchmark à la communauté de recherche afin que les chercheurs puissent “creuser plus profondément dans les variations” et évaluer de nouveaux modèles d’IA.

CAIS et Scale AI ont pour plan d’ouvrir ce benchmark à la communauté de recherche, permettant ainsi aux chercheurs de “creuser plus profondément dans les variations” et d’évaluer de nouveaux modèles d’IA. C’est une approche inclusive qui ouvre la voie à des progrès plus rapides et plus vastes dans le domaine de l’intelligence artificielle.

Il est évident que l’IA a encore du chemin à parcourir pour s’aligner sur les capacités humaines. Cependant, ce nouveau benchmark offre une plate-forme pour l’amélioration continue, s’attaquant aux défis plus complexes de l’IA d’une manière qui pourrait être bénéfique pour l’ensemble de l’industrie.

Partagez cet article
article précédent

Meta : Yann LeCun prédit un “nouveau paradigme d’architectures d’IA” dans les 5 ans et une “décennie de la robotique” | TechCrunch

article suivant

Les titres professionnels : un tremplin vers l’emploi – Digiformag

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles