Tous les modèles d’IA générative, de Gemini de Google à Claude d’Anthropic en passant par la dernière version discrète de GPT-4o d’OpenAI, sont sujets à l’hallucination. Les modèles sont des narrateurs peu fiables — parfois de manière hilarante, d’autres fois de manière problématique. Mais tous les modèles ne fabriquent pas les choses au même rythme. Et le type de mensonges qu’ils produisent dépend des sources d’information auxquelles ils ont été exposés.
Une étude récente menée par des chercheurs de Cornell, des universités de Washington et de Waterloo et le centre de recherche sans but lucratif AI2 a cherché à établir des références en vérifiant les hallucinations des modèles comme GPT-4o par rapport aux sources faisant autorité sur des sujets allant du droit et de la santé à l’histoire et à la géographie. Ils ont constaté qu’aucun modèle ne s’est particulièrement bien comporté sur tous les sujets, et que les modèles qui hallucinaient le moins le faisaient en partie parce qu’ils refusaient de répondre aux questions qu’ils auraient autrement mal répondues.
“Le constat le plus important de notre travail est que nous ne pouvons pas encore pleinement faire confiance aux productions des modèles”, a déclaré Wenting Zhao, doctorante à Cornell et co-auteure de l’étude, à TechCrunch. “À l’heure actuelle, même les meilleurs modèles ne peuvent générer du texte sans hallucination que 35 % du temps.”
D’autres tentatives académiques visant à sonder la “factualité” des modèles ont été faites, notamment par une équipe affiliée à AI2. Mais Zhao note que ces tests précédents posaient aux modèles des questions dont les réponses se trouvaient facilement sur Wikipedia — ce qui n’est pas exactement la tâche la plus difficile, vu que la plupart des modèles sont formés à partir de données Wikipedia.
Pour rendre leur référence plus difficile — et pour refléter plus précisément les types de questions que les gens posent aux modèles — les chercheurs ont identifié sur le web des sujets qui ne disposent pas d’une référence Wikipedia. Juste un peu plus de la moitié des questions de leur test ne peuvent pas être répondue à l’aide de Wikipedia (ils ont inclus certaines questions basées sur Wikipedia à titre de mesure de contrôle), et touchent des sujets tels que la culture, la géographie, l’astronomie, la culture populaire, la finance, la médecine, l’informatique et les célébrités.
Pour leur étude, les chercheurs ont évalué plus d’une douzaine de modèles populaires, dont beaucoup ont été lancés au cours de la dernière année. En plus de GPT-4o, ils ont testé des modèles “ouverts” tels que Llama 3 70B de Meta, Mixtral 8x22B de Mistral et Command R+ de Cohere, ainsi que des modèles restreints derrière API tels que Sonar Large de Perplexity (qui est basé sur Llama), Gemini 1.5 Pro de Google et Claude 3 Opus d’Anthropic.
Les résultats suggèrent que les modèles n’hallucinent pas beaucoup moins ces derniers temps, malgré les affirmations contraires d’OpenAI, Anthropic et des autres grands acteurs de l’IA générative. GPT-4o et le bien plus ancien modèle phare de OpenAI, GPT-3.5, ont obtenu des résultats à peu près identiques en termes de pourcentage de questions auxquelles ils ont répondu correctement sur la référence. (GPT-4o était légèrement meilleur.)
Les modèles d’OpenAI étaient les moins hallucinatoires dans l’ensemble, suivis par Mixtral 8x22B, Command R et les modèles Sonar de Perplexity. Les questions concernant les célébrités et la finance ont posé le plus de problèmes aux modèles, mais les questions sur la géographie et l’informatique ont été les plus faciles pour les modèles à répondre (peut-être parce que leurs données d’entraînement contenaient plus de références à ces sujets).
Dans les cas où la source d’une réponse n’était pas Wikipedia, chaque modèle a répondu de manière moins factuelle en moyenne (mais surtout GPT-3.5 et GPT-4o), suggérant qu’ils sont tous fortement influencés par le contenu de Wikipedia.
Même les modèles qui peuvent chercher de l’information sur le web, comme Command R et les modèles Sonar de Perplexity, ont eu du mal avec les questions “non-Wiki” dans la référence.
La taille du modèle n’a pas beaucoup d’importance ; les modèles plus petits (par exemple, Claude 3 Haiku d’Anthropic) ont halluciné à peu près aussi souvent que les modèles plus grands, ostensiblement plus capables (par exemple, Claude 3 Opus).
Alors qu’est-ce que tout cela signifie — et où sont les améliorations promises par les fournisseurs ? Eh bien, nous ne mettrions pas au-delà des fournisseurs d’exagérer leurs affirmations. Mais une interprétation plus charitable est que les références qu’ils utilisent ne sont pas adaptées à cet effet.
Comme nous l’avons déjà écrit, de nombreuses évaluations d’IA, voire la plupart, sont éphémères et dépourvues de contexte important, condamnées à tomber sous le coup de la loi de Goodhart.
Quoi qu’il en soit, Zhao dit s’attendre à ce que le problème des hallucinations “persiste pendant longtemps”. “Les résultats empiriques de notre article indiquent que, malgré la promesse de certaines méthodes de réduire ou d’éliminer les hallucinations, l’amélioration réelle réalisable avec ces méthodes est limitée”, a-t-elle déclaré.
“De plus, notre analyse révèle que même les connaissances trouvées sur internet peuvent souvent être contradictoires, en partie parce que les données d’entraînement — rédigées par des humains — peuvent elles aussi contenir des hallucinations.”
Une solution intermédiaire pourrait simplement être de programmer les modèles pour qu’ils refusent de répondre plus souvent — l’équivalent technique de dire à un je-sais-tout de se taire.
Dans les tests des chercheurs, Claude 3 Haiku n’a répondu qu’à environ 72% des questions qui lui étaient posées, choisissant de s’abstenir pour le reste. En tenant compte des abstentions, Claude 3 Haiku était en fait le modèle le plus factuel de tous — du moins en ce sens qu’il mentait moins souvent.
Mais les gens utiliseront-ils un modèle qui ne répond pas à de nombreuses questions ? Zhao ne le pense pas et dit que les fournisseurs devraient consacrer plus de temps et d’efforts à la recherche visant à réduire le taux d’hallucinations.
Il ne sera peut-être pas possible d’éliminer complètement les hallucinations, mais elles peuvent être atténuées grâce à une vérification des faits et à une citation en temps réel par des humains lors du développement d’un modèle, soutient-elle.
“Des politiques et des régulations doivent être établies pour s’assurer que des experts humains sont toujours impliqués dans le processus afin de vérifier et valider les informations générées par les modèles d’IA générative”, a ajouté Zhao.
“Il reste encore de nombreuses occasions de faire des impacts significatifs dans ce domaine, comme le développement d’outils de vérification des faits avancés pour n’importe quel texte libre, la fourniture de citations pour des contenus factuels et l’offre de corrections pour des textes hallucinés.”