Comment les IA se nourrissent de livres piratés ? | Le site de Korben

Le monde de l’intelligence artificielle (IA) est en pleine effervescence, mais derrière les avancées spectaculaires se cache une réalité souvent méconnue : la façon dont ces technologies sont alimentées en données. Le cas de Bibliotik, un tracker torrent privé dédié au partage de livres numériques, illustre bien cette problématique. De la même manière, des géants de la tech comme Meta, Bloomberg ou EleutherAI ont mis en place des méthodes pour faire évoluer leurs modèles en utilisant des gigantesques bases de données de livres, souvent piratés, sans que cela ne soulève immédiatement de questions juridiques.

Le dataset controversé, nommé Books3, créé en 2020 par le chercheur Shawn Presser, représente une version massive de ces pratiques non éthiques. Comportant 37 Go de livres scrappés directement depuis Bibliotik, il a été intégré dans The Pile, une base de 825 Go utilisée par plusieurs projets d’envergure comme LLaMA de Meta ou BloombergGPT. Cependant, ce contenu inclut des ouvrages protégés par des droits d’auteur, notamment des romans de George R.R. Martin ou des travaux de journalistes comme John Carreyrou. Ces utilisations ont conduit l’auteur de ce dernier à déposer plainte, pointant du doigt le VOL évident que constitue cette approche.

La défense des géants de l’IA repose sur le principe du “fair use”, estimant que transformer des livres en données d’entraînement ne constitue pas un vol, mais un usage légitime, comparable à la lecture ou à l’influence d’un lecteur sur un texte.

Les décisions de justice récentes aux États-Unis semblent toutefois pencher en faveur de ces entreprises, considérant leur utilisation comme “spectaculairement transformatif”. Autrement dit, ils peuvent justifier ces pratiques sous le prétexte que leurs modèles ne reproduisent pas directement les livres, mais s’en inspirent pour apprendre à générer du texte. Néanmoins, le téléchargement pirate des ouvrages, lui, reste illégal, alimentant une tension visible entre légalité et éthique. Un paradoxe renforcé par la situation des auteurs, qui touchent des miettes dans ces transactions, alors que les entreprises réalisent des milliards en exploitant ces données.

Face à cette problématique, de plus en plus d’initiatives citoyennes ou académiques cherchent à proposer des alternatives légales pour entraîner des IA. Parmi elles, le projet Common Corpus, coordonné par la startup française Pleias avec le soutien de HuggingFace, du Ministère de la Culture ou de l’AI Alliance, se distingue. Composé de 500 milliards de mots issus entièrement du domaine public — journaux, patrimoine culturel, ouvrages historiques — il offre une option éthique pour la formation des modèles. D’autres projets comme Dolma ou RedPajama proposent également des datasets ouverts et documentés, permettant un entraînement transparent et conforme à la législation.

Cependant, ces datasets légaux peinent à rivaliser avec la richesse et la modernité linguistique des livres piratés, ceux-ci étant souvent écrits dans un français d’époque ou un anglais archaïque, peu adaptés pour des modèles de langage contemporains.

Ce décalage soulève un vrai dilemme : faut-il privilégier l’éthique au détriment de la performance, ou accepter que les meilleures IA viennent de données pirates ? En janvier 2025, des chercheurs de Mozilla et EleutherAI ont publié un rapport soulignant la complexité de créer des datasets ouverts, notamment à cause des coûts de numérisation ou des métadonnées pauvres. Si faire les choses dans la légalité expose à des risques juridiques — comme l’a montré la censure de Books3 par la Danish Rights Alliance —, continuer à opérer en douce, sans transparence, reste la stratégie privilégiée par des géants comme OpenAI. Avec une toile qui se referme peu à peu, en empêchant le scraping, la construction de datasets éthiques devient de plus en plus ardue. La question politique est désormais centrale : doit-on accepter qu’une IA lit pour mieux apprendre, quitte à piller, ou doit-on faire de la lecture une activité protégée, comme dans le monde humain, même si cela limite la puissance de ces modèles ?

En définitive, le vrai enjeu n’est pas seulement technique, mais moral et politique : jusqu’où veut-on aller dans la lignée de l’exploitation des œuvres, ou préférons-nous privilégier une approche responsable, même si elle réduit la performance absolue des IA ? La réponse déterminera en partie l’avenir de la création, de l’éthique et de la législation autour de l’intelligence artificielle.

Partagez cet article
article précédent

Quand les robots humanoïdes se font pirater en 1 minute via Bluetooth | Le site de Korben

article suivant

Les IA peuvent-elles révolutionner la salle d’opération ? Cette startup le pense

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles