En mai dernier, OpenAI annonçait qu’elle développait un outil permettant aux créateurs de spécifier comment ils souhaitent que leurs œuvres soient incluses dans — ou exclues de — ses données d’entraînement pour l’IA. Mais 7 mois plus tard, cette fonctionnalité n’a toujours pas vu le jour. Appelé Media Manager, l’outil permettrait d'”identifier les textes, images, audios et vidéos protégés par des droits d’auteur”, déclarait OpenAI à l’époque, afin de respecter les préférences des créateurs “sur plusieurs sources”. Il visait à apaiser certains des critiques les plus virulents de l’entreprise, et à potentiellement protéger OpenAI contre les défis juridiques liés à la PI. Mais des personnes proches de l’entreprise ont confié à TechCrunch que cet outil n’était que rarement considéré comme un lancement majeur en interne. “Je ne pense pas que c’était une priorité”, a déclaré un ancien employé d’OpenAI. “Pour être honnête, je ne me souviens pas que quelqu’un y ait travaillé”.
Un non-employé qui coordonne le travail avec l’entreprise a déclaré à TechCrunch en décembre qu’ils avaient discuté de l’outil avec OpenAI par le passé, mais qu’il n’y a pas eu de mises à jour récentes. (Ces personnes ont refusé d’être publiquement identifiées en discutant de questions commerciales confidentielles.) Et un membre de l’équipe juridique d’OpenAI qui travaillait sur Media Manager, Fred von Lohmann, est passé au statut de consultant à temps partiel en octobre. OpenAI PR a confirmé le départ de Von Lohmann à TechCrunch par email. OpenAI n’a pas encore donné de nouvelles sur l’avancement de Media Manager, et l’entreprise a manqué une échéance qu’elle s’était fixée elle-même pour avoir l’outil en place d’ici 2025.
“Si les tribunaux déclarent finalement OpenAI victorieux, Media Manager n’aurait plus grand intérêt juridique. OpenAI semble prête à prendre ce pari — ou à reconsidérer sa stratégie de désinscription.”
Les modèles d’IA comme ceux d’OpenAI apprennent des modèles dans des ensembles de données pour faire des prédictions — par exemple, qu’une personne qui mord dans un hamburger laissera une marque de morsure. Cela permet aux modèles d’apprendre comment fonctionne le monde, jusqu’à un certain point, en l’observant. ChatGPT peut rédiger des e-mails et des essais convaincants, tandis que Sora, le générateur de vidéos d’OpenAI, peut créer des séquences relativement réalistes. La capacité de s’appuyer sur des exemples d’écriture, de film et autres pour générer de nouvelles œuvres rend l’IA incroyablement puissante. Mais elle est aussi régurgitante. Lorsqu’ils sont stimulés d’une certaine manière, les modèles — dont la plupart sont entraînés sur d’innombrables pages web, vidéos et images — produisent des copies proches de ces données, qui bien qu’étant “publiquement disponibles”, ne sont pas destinées à être utilisées de cette manière.
Par exemple, Sora peut générer des clips présentant le logo de TikTok et des personnages de jeux vidéo populaires. The New York Times a réussi à faire citer ses articles mot pour mot par ChatGPT (OpenAI attribue ce comportement à un “hack”). Cela a naturellement contrarié les créateurs dont les œuvres ont été absorbées par l’entraînement de l’IA sans leur permission. Beaucoup ont engagé des avocats. OpenAI est en train de se battre contre des plaintes collectives déposées par des artistes, des écrivains, des YouTubers, des informaticiens et des organisations d’information, tous accusant la start-up de s’être formée illégalement sur leurs œuvres. Les plaignants comprennent les auteurs Sarah Silverman et Ta Nehisi-Coates, des artistes visuels, et des conglomérats médiatiques comme The New York Times et Radio-Canada, pour n’en nommer que quelques-uns.
Dans l’absence de Media Manager, OpenAI a mis en place des filtres — bien qu’imparfaits — pour empêcher ses modèles de régurgiter des exemples d’entraînement. Et dans les poursuites auxquelles elle fait face, l’entreprise continue de revendiquer des protections d’usage équitable, affirmant que ses modèles créent des œuvres transformationnelles, et non plagiées. OpenAI pourrait bien l’emporter dans ses litiges sur les droits d’auteur. Les tribunaux pourraient décider que l’IA de l’entreprise a un “but transformatif”, suivant le précédent établi il y a environ une décennie dans le procès de l’industrie de l’édition contre Google.
OpenAI a déclaré publiquement qu’il serait “impossible” de former des modèles d’IA compétitifs sans utiliser de matériel protégé par des droits d’auteur — autorisé ou non. “Limiter les données d’entraînement aux livres et dessins du domaine public créés il y a plus d’un siècle pourrait être une expérience intéressante, mais ne fournirait pas des systèmes d’IA qui répondent aux besoins des citoyens d’aujourd’hui”, a écrit l’entreprise dans une soumission à la Chambre des lords du Royaume-Uni en janvier.