Des acteurs malveillants détournent des outils de musique générative basés sur l’IA pour créer et diffuser des chansons homophobes, racistes et propagandistes. Selon ActiveFence, un service dédié à la gestion de la confiance et de la sécurité sur les plateformes en ligne, il y a eu depuis mars une recrudescence des discussions relatives à la haine dans certaines communautés, où l’on échange des méthodes pour détourner les outils de création musicale basés sur l’IA afin de créer des chansons offensantes à l’encontre des minorités. Les chercheurs d’ActiveFence font état, dans un rapport, de chansons générées par l’IA qui incitent à la haine envers certains groupes ethniques, sexistes, raciaux et religieux, mais également de chansons qui font l’éloge des actes de martyre, d’automutilation et de terrorisme.
Les chansons véhiculant la haine et la violence ne sont pas un phénomène nouveau. Cependant, l’inquiétude réside dans le fait qu’avec l’avènement d’outils gratuits de création musicale faciles à utiliser, elles seront produites en masse par des personnes qui n’avaient auparavant ni les moyens ni les connaissances, de la même façon que les générateurs d’images, de voix, de vidéos et de textes ont accéléré la diffusion de la désinformation, de la mésinformation et des discours de haine. « Ces tendances s’intensifient à mesure que de plus en plus d’utilisateurs apprennent à générer ces chansons et à les partager avec d’autres », a déclaré un porte-parole d’ActiveFence à TechCrunch. « Les acteurs de la menace identifient rapidement des vulnérabilités spécifiques pour abuser de ces plateformes de différentes manières et générer du contenu malveillant. »
“La musique haineuse générée par l’IA est susceptible de se répandre de manière considérable si elle suit l’exemple d’autres médias générés par l’IA.”
Les outils de musique générative basés sur l’IA, tels que Udio et Suno, permettent aux utilisateurs d’ajouter des paroles personnalisées aux chansons générées. Les plateformes sont équipées de filtres qui rejettent les injures et les termes péjoratifs courants, mais les utilisateurs ont trouvé des moyens de les contourner, selon ActiveFence. Par exemple, dans un forum de suprémacistes blancs cité dans le rapport, des utilisateurs partageaient des orthographes phonétiques de minorités et de termes offensants, tels que « jooz » au lieu de « Juifs » et « say tan » au lieu de « Satan », pour contourner les filtres de contenu. Certains utilisateurs ont suggéré de modifier l’espacement et l’orthographe lorsqu’ils font référence à des actes de violence, comme remplacer « my rape » par « mire ape ».
ActiveFence plaide pour que les plateformes de création musicale mettent en œuvre des outils de prévention et conduisent des évaluations de sécurité plus approfondies. « Le red teaming pourrait potentiellement dévoiler certaines de ces vulnérabilités et peut être réalisé en simulant le comportement des acteurs menaçants », a déclaré le porte-parole. « Une meilleure modération des entrées et des sorties pourrait également être utile dans ce cas, car elle permettrait aux plateformes de bloquer le contenu avant qu’il ne soit partagé avec l’utilisateur. » Mais ces solutions pourraient s’avérer éphémères à mesure que les utilisateurs découvrent de nouvelles méthodes pour déjouer la modération.