Un créateur YouTube cherche à lancer un recours collectif contre OpenAI, alléguant que la société a formé ses modèles d’IA génératives sur des millions de transcriptions de vidéos YouTube sans prévenir – ou compenser – les propriétaires des vidéos. Une plainte déposée vendredi dernier devant le tribunal de district des États-Unis pour le district nord de la Californie, les avocats de David Millette, un utilisateur de YouTube basé au Massachusetts, allèguent qu’OpenAI a secrètement transcrit les vidéos de Millette et d’autres créateurs pour former les modèles qui alimentent la plateforme de chatbot de l’entreprise, ChatGPT, et d’autres outils et produits d’IA génératifs. En collectant ces données, OpenAI a “profité de manière significative” du travail des créateurs, allègue la plainte, tout en violant la loi sur le droit d’auteur et les conditions d’utilisation de YouTube qui interdisent l’utilisation de vidéos pour des applications indépendantes de son service.
“Au fur et à mesure que les produits IA [d’OpenAI] deviennent plus sophistiqués grâce à l’utilisation de jeux de données d’entraînement, ils deviennent plus précieux pour les utilisateurs potentiels et actuels, qui achètent des abonnements pour accéder aux produits IA [d’OpenAI]”, lit-on dans la plainte. “Une grande partie du matériel dans les jeux de données d’entraînement d’OpenAI, cependant, provient d’œuvres qui ont été copiées par OpenAI sans consentement, sans crédit et sans compensation.” Millette, représenté par le cabinet d’avocats Bursor and Fisher, demande un procès devant jury et plus de 5 millions de dollars de dommages et intérêts pour tous les utilisateurs YouTube dont les données auraient été collectées par OpenAI.
Les transcriptions vidéo sont devenues un ingrédient clé des données d’entraînement alors que les autres sources de données se tarissent, pour ainsi dire.
Les modèles d’IA génératifs, comme ceux de OpenAI, n’ont pas d’intelligence réelle. Alimentés par un nombre énorme d’exemples (par exemple des films, des enregistrements vocaux, des essais, etc.), les modèles “apprennent” à quel point les données sont susceptibles de se produire en fonction des modèles, y compris le contexte de toutes les données environnantes. La plupart des modèles sont formés sur des données provenant de sites web publics et de jeux de données à travers le web. Les entreprises font valoir que l’utilisation équitable protège leurs efforts pour collecter des données de manière indiscriminée et à les utiliser pour former des modèles commerciaux. De nombreux détenteurs de droits d’auteur ne sont cependant pas d’accord – et ils déposent des plaintes visant à arrêter cette pratique.
Plus de 35% des 1 000 meilleurs sites web du monde bloquent désormais le robot d’indexation de OpenAI, selon les données de Originality.AI. Et environ 25% des données provenant de sources “de haute qualité” ont été retirées des principaux jeux de données utilisés pour former les modèles d’IA, selon une étude de l’initiative Data Provenance du MIT. Si la tendance actuelle à bloquer l’accès se poursuit, le groupe de recherche Epoch AI prévoit que les développeurs manqueront de données pour former des modèles d’IA génératifs entre 2026 et 2032.
Jusqu’à la fin de ce mois, il a été difficile pour OpenAI. Elon Musk, le PDG de Tesla et de X, a déposé lundi une nouvelle plainte contre OpenAI et son PDG, Sam Altman, accusant l’entreprise d’avoir abandonné sa mission à but non lucratif en réservant certaines de ses technologies les plus sophistiquées pour les clients commerciaux. Musk a fait les mêmes allégations dans une plainte déposée en février contre OpenAI, mais la nouvelle plainte allègue également que OpenAI se livre à une activité de racket.