Spawning souhaite construire des ensembles de données d’entraînement IA plus éthiques | TechCrunch

Generated with DALL·E 3

Jordan Meyer et Mathew Dryhurst ont fondé Spawning AI dans le but de créer des outils qui aident les artistes à exercer un plus grand contrôle sur la manière dont leurs œuvres sont utilisées en ligne. Leur dernier projet, appelé Source.Plus, vise à sélectionner des médias “non contrefaisants” pour la formation de modèles d’IA. La première initiative de Source.Plus est un ensemble de données alimenté par près de 40 millions d’images du domaine public et d’images sous licence Creative Commons CC0, qui permet aux créateurs de renoncer à presque tous leurs intérêts juridiques dans leurs œuvres. Meyer affirme que, bien que son ensemble de données soit nettement plus petit que certains autres ensembles de données d’entraînement d’IA générative, le jeu de données de Source.Plus est déjà suffisamment “haut de gamme” pour entraîner un modèle de génération d’images de pointe.

“Avec Source.Plus, nous construisons une plateforme universelle ‘opt-in'”, a déclaré Meyer. “Notre but est de faciliter pour les détenteurs de droits d’offrir leurs médias pour une utilisation dans la formation d’IA générative – selon leurs propres conditions – et sans friction pour les développeurs pour intégrer ces médias dans leurs flux de travail d’entraînement.” Le débat autour de l’éthique de la formation de modèles d’IA générative, en particulier des modèles de génération d’art comme Stable Diffusion et DALL-E 3 d’OpenAI, continue sans relâche – et a des implications massives pour les artistes, peu importe comment les choses se règlent.

“Les modèles d’IA générative “apprennent” à produire leurs résultats (par exemple, de l’art photoréaliste) en s’entraînant sur une grande quantité de données pertinentes, dans ce cas des images. Certains développeurs de ces modèles soutiennent que l’usage équitable leur donne le droit de récolter des données de sources publiques, quelle que soit le statut de droit d’auteur de ces données. D’autres ont tenté de respecter la ligne, en compensant ou du moins en créditant les propriétaires de contenu pour leurs contributions aux ensembles de formation.”

Spawning, disponible en beta limitée, s’appuie sur les outils existants de Spawning pour la provenance de l’art et la gestion des droits d’utilisation. En 2022, Spawning a créé HaveIBeenTrained, un site web qui permet aux créateurs de se désinscrire des ensembles de données utilisés par les fournisseurs qui ont fait équipe avec Spawning, dont Hugging Face et Stability AI. Après avoir levé 3 millions de dollars en capital-risque auprès d’investisseurs, dont True Ventures et Seed Club Ventures, Spawning a lancé ai.text, une manière pour les sites web de “définir des permissions” pour l’IA, et un système – Kudurru – pour se défendre contre les bots de collecte de données. Source.Plus est le premier effort de Spawning pour construire une bibliothèque de médias – et pour sélectionner cette bibliothèque en interne. Le premier ensemble de données d’images, PD/CC0, peut être utilisé à des fins commerciales ou de recherche, dit Meyer.

“Source.Plus n’est pas simplement un dépôt de données d’entraînement ; c’est une plateforme d’enrichie avec des outils pour soutenir le pipeline d’entraînement”, dit-il. “Notre objectif est d’avoir un ensemble de données CC0 non contrefaisant de haute qualité, capable de soutenir un puissant modèle d’IA de base disponible d’ici un an.” Des organisations comme Getty Images, Adobe, Shutterstock et la startup AI Bria affirment n’utiliser que des données équitablement acquises pour l’entraînement de modèles. (Getty va même jusqu’à qualifier ses produits d’IA générative de “commercialement sûrs.”) Mais Meyer affirme que Spawning vise à établir une “barre plus haute” pour ce que signifie acquérir des données de manière équitable.

Source.Plus filtre les images pour les “refus” et autres préférences de formation des artistes, montrant des informations de provenance sur la manière dont – et d’où – les images ont été collectées. Il exclut également les images qui ne sont pas licenciées sous CC0, notamment celles avec une licence Creative Commons BY 1.0, qui nécessite une attribution. Et Spawning affirme qu’il surveille les défis de droit d’auteur provenant de sources où quelqu’un d’autre que les créateurs est responsable d’indiquer le statut de droit d’auteur d’une œuvre, comme Wikimedia Commons.

“Nous avons méticuleusement validé les licences rapportées des images que nous avons collectées, et toute licence douteuse a été exclue, une étape que de nombreux ensembles de données ‘équitables’ ne prennent pas”, a déclaré Meyer. Historiquement, les images problématiques – y compris violentes et pornographiques, les images personnelles sensibles – ont ravagé les ensembles de données d’entraînement, ouverts et commerciaux. Les mainteneurs de l’ensemble de données LAION ont été contraints de retirer une bibliothèque en ligne après avoir découvert des dossiers médicaux et des représentations d’abus sexuels d’enfants ; cette semaine, une étude de Human Rights Watch a révélé qu’un des dépôts de LAION incluait les visages d’enfants brésiliens sans le consentement ou la connaissance de ces enfants. Ailleurs, la bibliothèque de médias de stock d’Adobe, Adobe Stock, que l’entreprise utilise pour entraîner ses modèles d’IA génératifs, y compris le modèle d’image générant Firefly, a été découvert pour contenir des images générées par l’IA de ses rivaux, tels que Midjourney.

La solution de Spawning consiste en des modèles de classification formés pour détecter la nudité, le gore, les informations personnelles identifiables et d’autres éléments indésirables dans les images. Reconnaissant qu’aucun classificateur n’est parfait, Spawning prévoit de laisser les utilisateurs filtrer “flexiblement” l’ensemble de données de Source.Plus en ajustant les seuils de détection des classificateurs, dit Meyer.

“Nous employons des modérateurs pour vérifier la propriété des données”, a ajouté Meyer. “Nous avons également intégré des fonctionnalités de réparation, où les utilisateurs peuvent signaler des œuvres offensantes ou possiblement contrefaisantes, et le cheminement de la façon dont ces données ont été consommées peut être audité.”

La plupart des programmes visant à compenser les créateurs pour leurs contributions d’entraînement de données d’IA générative n’ont pas été exceptionnellement bien réussis. Certains programmes s’appuient sur des mesures opaques pour calculer les paiements aux créateurs, tandis que d’autres paient des montants que les artistes considèrent comme déraisonnablement bas. Prenons l’exemple de Shutterstock. La bibliothèque de médias en stock, qui a conclu des accords avec les vendeurs d’IA allant jusqu’à des dizaines de millions de dollars, contribue à un “fonds de contributeurs” pour les œuvres qu’elle utilise pour entraîner ses modèles d’IA générative ou qu’elle licence à des développeurs tiers. Mais Shutterstock n’est pas transparent sur ce que les artistes peuvent espérer gagner, et il ne permet pas aux artistes de fixer leurs propres prix et conditions ; une estimation tiers estime les gains à 15 $ pour 2 000 images, une somme loin d’être impressionnante.

Une fois que Source.Plus sortira de la beta plus tard cette année et s’étendra à des ensembles de données au-delà de PD/CC0, il adoptera une approche différente des autres plateformes, permettant aux artistes et aux détenteurs de droits de fixer leurs

Partagez cet article
article précédent

Linq lève 6,6 millions de dollars pour faciliter la recherche des analystes financiers avec l’IA | TechCrunch

article suivant

La lettre de motivation est-elle encore utile ?

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles