Étude sur les citations de ChatGPT : une lecture désolante pour les éditeurs | TechCrunch

Generated with DALL·E 3

Des éditeurs de plus en plus nombreux concluent des accords de licence de contenu avec OpenAI, le fabricant de ChatGPT. Cette semaine, une étude réalisée par le Tow Center for Digital Journalism, qui examine comment le chatbot d’IA produit des citations (c’est-à-dire des sources) pour le contenu des éditeurs, offre une lecture intéressante, voire préoccupante. En substance, les résultats suggèrent que les éditeurs restent à la merci de la tendance de l’outil d’IA générateur à inventer ou à déformer l’information, qu’ils permettent ou non à OpenAI de crawler leur contenu.

L’étude, menée à la Columbia Journalism School, a examiné les citations produites par ChatGPT après qu’on lui a demandé d’identifier la source de citations provenant d’un échantillon d’éditeurs – certains ayant conclu des accords avec OpenAI et d’autres non. Le Centre a pris des blocs de citations de 10 articles produits par un total de 20 éditeurs sélectionnés au hasard (soit 200 citations différentes au total) – y compris du contenu du New York Times (qui poursuit actuellement OpenAI pour violation de droits d’auteur) ; du Washington Post (qui n’est pas associé au fabricant de ChatGPT) ; du Financial Times (qui a conclu un accord de licence) ; et d’autres.

“Nos tests ont révélé qu’aucun éditeur – indépendamment de son degré d’affiliation à OpenAI – n’a été épargné par des représentations inexactes de son contenu dans ChatGPT”, ont ajouté les chercheurs.

“Nous avons choisi des citations qui, si elles étaient collées dans Google ou Bing, renverraient l’article source parmi les trois premiers résultats, et nous avons évalué si le nouvel outil de recherche d’OpenAI identifierait correctement l’article qui était la source de chaque citation”, ont écrit les chercheurs du Tow, Klaudia Jaźwińska et Aisvarya Chandrasekar, dans un blog expliquant leur approche et résumant leurs conclusions. “Ce que nous avons trouvé n’est pas prometteur pour les éditeurs d’actualités”, poursuivent-ils. “Bien qu’OpenAI mette en avant sa capacité à fournir aux utilisateurs des ‘réponses opportunes avec des liens vers des sources web pertinentes’, l’entreprise ne s’engage pas explicitement à garantir l’exactitude de ces citations. C’est une omission notable pour les éditeurs qui s’attendent à ce que leur contenu soit référencé et représenté fidèlement.”

Les chercheurs disent avoir trouvé “de nombreux” cas où le contenu des éditeurs a été cité de manière inexacte par ChatGPT – découvrant également ce qu’ils appellent “un spectre de précision dans les réponses”. Ainsi, ils ont trouvé “certaines” citations entièrement correctes (c’est-à-dire que ChatGPT a renvoyé avec précision l’éditeur, la date et l’URL du bloc de citations partagé avec lui), il y avait “beaucoup” de citations qui étaient entièrement erronées ; et “certaines” qui se situaient quelque part entre les deux. En bref, les citations de ChatGPT semblent être un mélange peu fiable.

De plus, les chercheurs ont trouvé très peu de cas où le chatbot ne manifestait pas une totale confiance en ses réponses (erronées). Certaines des citations provenaient d’éditeurs qui ont activement bloqué les crawlers de recherche d’OpenAI. Dans ces cas, les chercheurs disent qu’ils s’attendaient à ce qu’il ait des problèmes pour produire des citations correctes. Mais ils ont constaté que ce scénario soulevait un autre problème – car le bot “rarement” reconnaissait qu’il était incapable de produire une réponse. À la place, il recourait à la confabulation pour générer une certaine source (certes, une source incorrecte).

Partagez cet article
article précédent

France compétences fédère les secteurs autour des travaux des observatoires des métiers – Digiformag

article suivant

Après la pandémie, le télétravail profite surtout aux cadres

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles