Une nouvelle étude semble confirmer les allégations selon lesquelles OpenAI a formé au moins certains de ses modèles d’IA sur du contenu protégé par des droits d’auteur. OpenAI est impliqué dans des poursuites intentées par des auteurs, des programmeurs et d’autres détenteurs de droits qui accusent la société d’utiliser leurs œuvres – livres, codes, etc. – pour développer ses modèles sans permission. OpenAI a longtemps invoqué la défense de “fair use” (utilisation équitable), mais les plaignants dans ces affaires soutiennent qu’il n’existe pas d’exception dans le droit d’auteur américain pour les données d’entraînement.
L’étude, co-rédigée par des chercheurs de l’Université de Washington, de l’Université de Copenhague et de Stanford, propose une nouvelle méthode pour identifier les données d’apprentissage “mémorisées” par les modèles derrière une API, comme celle d’OpenAI. Les modèles sont des moteurs de prédiction. Formés sur beaucoup de données, ils apprennent des schémas, c’est ainsi qu’ils sont capables de générer des essais, des photos, et plus encore. La plupart des résultats ne sont pas des copies mot pour mot des données d’entraînement, mais en raison de la façon dont les modèles “apprennent”, certains le sont inévitablement. On a découvert que les modèles d’image régurgitaient des captures d’écran de films sur lesquels ils avaient été formés, tandis que les modèles de langage ont été observés en train de plagier efficacement des articles de presse.
“Il y a un réel besoin de plus de transparence des données dans l’ensemble de l’écosystème”, a déclaré Abhilasha Ravichander, une étudiante en doctorat à l’Université de Washington et co-auteure de l’étude.
La méthode de l’étude repose sur des mots que les coauteurs appellent “à surprenance élevée”, c’est-à-dire des mots qui se démarquent comme étant peu courants dans le contexte d’un corpus plus large. Par exemple, le mot “radar” dans la phrase “Jack et moi nous sommes assis parfaitement immobiles avec le radar qui bourdonne” serait considéré comme à surprenance élevée parce qu’il est statistiquement moins probable que des mots tels que “moteur” ou “radio” apparaisse avant “bourdonne”. Les co-auteurs ont sondé plusieurs modèles d’OpenAI, dont GPT-4 et GPT-3.5, à la recherche de signes de mémorisation en supprimant les mots à surprenance élevée d’extraits de livres de fiction et d’articles du New York Times et en demandant aux modèles d'”essayer de deviner” quels mots avaient été masqués. Si les modèles réussissaient à deviner correctement, il est probable qu’ils aient mémorisé l’extrait lors de l’apprentissage, ont conclu les co-auteurs.
Selon les résultats des tests, GPT-4 a montré des signes d’avoir mémorisé des parties de romans populaires, y compris des livres dans un ensemble de données contenant des échantillons de livres électroniques protégés par le droit d’auteur appelés BookMIA. Les résultats suggèrent également que le modèle a mémorisé des parties d’articles du New York Times, bien que à un taux comparativement plus faible. Abhilasha Ravichander, étudiante en doctorat à l’Université de Washington et co-auteure de l’étude, a déclaré à TechCrunch que les résultats éclairaient les “données controversées” sur lesquelles les modèles auraient pu être formés. “Pour avoir de grands modèles de langage qui sont fiables, nous avons besoin de modèles que nous pouvons sonder et auditer et examiner scientifiquement,” a déclaré Ravichander. “Notre travail vise à fournir un outil pour sonder de grands modèles de langage, mais il y a un réel besoin d’une plus grande transparence des données dans tout l’écosystème.”