L’organisation derrière les données utilisées pour entraîner Stable Diffusion affirme avoir éliminé le CSAM | TechCrunch

Generated with DALL·E 3

LAION, organisation de recherche allemande qui a créé les données utilisées pour entraîner Stable Diffusion, entre autres modèles d’IA générative, a publié un nouvel ensemble de données qui, selon elle, a été “complètement nettoyé des liens connus suspectés de mener à du matériel d’abus sexuel sur les enfants (CSAM)”. Le nouvel ensemble de données, Re-LAION-5B, est en fait une réédition d’un ancien ensemble de données, LAION-5B, mais avec des “corrections” mises en place suivant les recommandations de la Fondation Internet Watch, Human Rights Watch, le Centre canadien pour la Protection de l’Enfance et l’observatoire Internet de Stanford, aujourd’hui dissous. Ce nouvel ensemble de donnés est disponible en deux versions, Re-LAION-5B Recherche et Re-LAION-5B Recherche-Sûr (qui élimine aussi du contenu NSFW supplémentaire), toutes deux ayant été filtrées pour éliminer des milliers de liens connus – et “probables” – vers du CSAM, affirme LAION. “LAION s’est engagée dès le début à éliminer le contenu illégal de ses ensembles de données et a mis en place des mesures appropriées pour y parvenir dès le début”, a écrit LAION dans un billet de blog. “LAION adhère strictement au principe selon lequel le contenu illégal est supprimé dès qu’il est connu”.

Il est important de noter que les ensembles de données de LAION ne contiennent pas – et n’ont jamais contenues – d’images. Ce sont plutôt des indices de liens vers des images et du texte alternatif qui a été organisé par LAION, le tout provenant d’un autre ensemble de données – le Common Crawl – de sites et de pages web collectées. La sortie de Re-LAION-5B intervient après une enquête en décembre 2023 par l’Observatoire Internet de Stanford qui a découvert que LAION-5B – en particulier un sous-ensemble appelé LAION-5B 400M – comprenait au moins 1 679 liens vers des images illégales collectées à partir de publications sur les réseaux sociaux et de sites web pour adultes populaires.

Selon le rapport, 400M contenait également des liens vers “une grande variété de contenus inappropriés comprenant des images pornographiques, des injures racistes et des stéréotypes sociaux néfastes”.

Les co-auteurs de Stanford du rapport ont fait remarquer qu’il serait difficile de supprimer le contenu offensant et que la présence de CSAM n’influençait pas nécessairement la production des modèles entraînés sur l’ensemble de données, mais LAION a déclaré qu’elle retirerait temporairement LAION-5B hors ligne. Le rapport de Stanford recommandait que les modèles entraînés sur LAION-5B “soient dépréciés et leur distribution cessée quand cela est possible”. Dans la foulée de cela, la startup IA Runway a récemment retiré son modèle Stable Diffusion 1.5 de la plateforme d’hébergement IA Hugging Face ; nous avons contacté l’entreprise pour plus d’informations. (Runway avait conclu un partenariat avec Stability AI, l’entreprise derrière Stable Diffusion, pour aider à entraîner le modèle Stable Diffusion original.)

En ce qui concerne le nouvel ensemble de données Re-LAION-5B, qui comprend environ 5,5 milliards de paires texte-image et a été publié sous une licence Apache 2.0, LAION déclare que les métadonnées peuvent être utilisées par des tiers pour nettoyer les copies existantes de LAION-5B en enlevant le contenu illégal correspondant. LAION insiste sur le fait que ses ensembles de données sont destinés à la recherche – et non à des fins commerciales. Toutefois, si l’histoire est un indicateur, cela n’arrêtera pas certaines organisations. Au-delà de Stability AI, Google a déjà utilisé les ensembles de données de LAION pour entraîner ses modèles de génération d’images.

“En tout, 2 236 liens [vers des CSAM suspectés] ont été supprimés après correspondance avec les listes de liens et de hachages d’images fournies par nos partenaires”, a poursuivi LAION dans la publication. “Ces liens comprennent également 1008 liens trouvés par le rapport de l’Observatoire Internet de Stanford en décembre 2023… Nous exhortons vivement tous les laboratoires de recherche et les organisations qui utilisent encore l’ancien LAION-5B à passer aux ensembles de données Re-LAION-5B dès que possible”.

Partagez cet article
article précédent

Une première condamnation au pénal pour affichage sauvage

article suivant

“Emotion AI” pourrait être la prochaine tendance pour les logiciels d’entreprise, et cela pourrait être problématique | TechCrunch

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles