Lanceur de RSS : un nouveau protocole pour la licence des données d’IA

Illustration générée par intelligence artificielle

Suite à un accord de 1,5 milliard de dollars sur le droit d’auteur d’Anthropic, l’industrie de l’IA fait face à un problème majeur concernant ses données d’entraînement. Actuellement, jusqu’à 40 autres affaires en cours cherchent des dommages pour des données non autorisées, y compris une action en justice contre Midjourney pour avoir créé des images de Superman. L’absence d’un système de licence pourrait plonger les entreprises d’IA dans une avalanche de poursuites judiciaires pour violation de droits d’auteur, ce qui inquiète certains acteurs qui craignent d’affecter durablement l’industrie.

Pour faire face à ce défi, un groupe de techniciens et de publishers web a lancé un système capable d’activer une licence des données à grande échelle, nommé Real Simple Licensing (RSL). Ce système bénéficie déjà du soutien de grands publishers web tels que Reddit, Quora et Yahoo. L’enjeu est de savoir si cette dynamique sera suffisante pour inciter les grands laboratoires d’IA à passer à des négociations. Selon le co-fondateur de RSL, Eckart Walther, l’objectif est de créer un système de licence des données d’entraînement qui soit évolutif sur Internet.

“Nous avons besoin d’accords de licence lisibles par machine pour Internet,” a déclaré Walther.

Le protocole RSL établit des conditions de licence spécifiques que les éditeurs peuvent définir pour leur contenu, que ce soit pour exiger une licence personnalisée ou adopter des dispositions Creative Commons. Les sites participants incluront les termes sous leur fichier “robots.txt” dans un format préarrangé, simplifiant l’identification des données et des termes qui s’y appliquent. Du point de vue juridique, l’équipe RSL a établi une organisation de licence collective, le RSL Collective, qui peut négocier les conditions et recueillir des redevances, à l’image d’ASCAP pour les musiciens ou/MPLC pour les films.

Malgré la multitude de participants qui se sont déjà joints à la collective, certains publishers n’étant pas en mesure de négocier leurs propres accords pourraient ne pas avoir d’autre option que de se conformer aux conditions collectives de RSL. Cependant, bien que les accords de licence puissent sembler simples dans le domaine musical, les modèles d’IA présentent des défis uniques pour déterminer quand des redevances doivent être versées pour des données d’entraînement spécifiques.

La véritable question demeure : les entreprises d’IA adopteront-elles ce système ? Bien que des entreprises comme ScaleAI et Mercor soient prêtes à payer pour des données, le web a longtemps été perçu comme une source de données bon marché et de faible qualité. Les commentaires récents de leaders de l’IA, demandant un système comme le RSL, plaident en faveur d’une prise de conscience de la nécessité d’un tel modèle. Le chemin vers une mise en œuvre effective pourrait s’ouvrir, mais pour le moment, l’attente reste palpable.

Partagez cet article
article précédent

La startup de jeu AI Born lève 15 millions de dollars pour construire des compagnons AI ‘sociaux’ qui combattent la solitude

article suivant

Des mixeurs aux concours de pitch — votre événement de marque a sa place au TechCrunch Disrupt 2025

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles