L’IA n’est pas très bonne en histoire, révèle une nouvelle étude | TechCrunch

Generated with DALL·E 3

L’intelligence artificielle pourrait exceller dans certaines tâches, comme la programmation ou la génération de podcasts. Cependant, elle peine à passer un examen d’histoire de haut niveau, selon une nouvelle étude. Une équipe de chercheurs a créé une nouvelle référence pour tester trois grands modèles linguistiques, tels que le GPT-4 de OpenAI, le Llama de Meta et le Gemini de Google, sur des questions historiques.

Cette nouvelle référence, Hist-LLM, teste l’exactitude des réponses en fonction de la Seshat Global History Databank, une vaste base de données de connaissances historiques nommée d’après la déesse égyptienne de la sagesse. Les résultats, qui ont été présentés le mois dernier lors de la conférence de haut niveau sur l’IA NeurIPS, ont été décevants, selon les chercheurs affiliés au Complexity Science Hub (CSH), un institut de recherche basé en Autriche.

Le modèle linguistique le plus performant était le GPT-4 Turbo de OpenAI, mais il n’a atteint qu’environ 46% de précision – un taux à peine supérieur à des conjectures aléatoires. “La principale conclusion de cette étude est que, bien que les LLM soient impressionnants, ils manquent encore de la profondeur de compréhension nécessaire pour l’histoire avancée. Ils sont excellents pour les faits de base, mais quand il s’agit de recherches historiques plus nuancées, de niveau doctorat, ils ne sont pas encore à la hauteur”, a déclaré Maria del Rio-Chanona, l’une des co-auteures du document et professeure associée en informatique à l’University College de Londres.

“Alors que nos résultats soulignent les domaines dans lesquels les LLM doivent s’améliorer, ils soulignent également le potentiel de ces modèles pour aider à la recherche historique.”

Les chercheurs ont partagé des exemples de questions historiques que les LLM ont mal interprétées. Par exemple, le GPT-4 Turbo a été interrogé pour savoir si l’armure de l’échelle était présente durant une période spécifique dans l’Égypte ancienne. Le LLM a répondu que oui, mais cette technologie n’est apparue en Égypte que 1500 ans plus tard.

Les chercheurs ont également identifié d’autres tendances, notamment le fait que les modèles OpenAI et Llama ont obtenu de moins bons résultats pour certaines régions, comme l’Afrique subsaharienne, ce qui suggère des biais potentiels dans leurs données d’entraînement. Néanmoins, ils restent optimistes quant à l’avenir des LLM pour aider les historiens. Ils travaillent à affiner leur référence en incluant davantage de données provenant de régions sous-représentées et en ajoutant des questions plus complexes.

Partagez cet article
article précédent

‘Pénurie de pères Noël: le costume “ne fait plus rêver”, les agences spécialisées peinent à recruter’

article suivant

Google conclut un accord avec The Associated Press pour apporter plus d’informations en temps réel à Gemini | TechCrunch

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles