La start-up Stability AI, à l’origine du générateur d’art Stable Diffusion alimenté par l’IA, a lancé un modèle d’IA ouvert pour la génération de sons et de chansons qu’elle affirme avoir été formé exclusivement sur des enregistrements exempts de droits d’auteur. Nommé Stable Audio Open, le modèle génératif prend une description textuelle (par exemple, “Battement de rock joué dans un studio traité, batterie de session sur un kit acoustique”) et produit un enregistrement pouvant durer jusqu’à 47 secondes. Le modèle a été formé en utilisant environ 486 000 échantillons issus des bibliothèques de musique libre Freesound et de la Free Music Archive.
Stability AI affirme que le modèle peut être utilisé pour créer des rythmes de batterie, des riffs d’instruments, des bruits ambiants et des “éléments de production” pour les vidéos, les films et les émissions de télévision, ainsi que pour “éditer” des chansons existantes ou appliquer le style d’une chanson (par exemple, smooth jazz) à une autre. “Un avantage clé de cette version open source est que les utilisateurs peuvent affiner le modèle sur leurs propres données audio personnalisées”, a écrit Stability AI dans un article sur son blog d’entreprise. “Par exemple, un batteur pourrait affiner sur des échantillons de ses propres enregistrements de batterie pour générer de nouveaux rythmes.”
“Stable Audio Open ne peut pas produire de chansons complètes, de mélodies ou de voix – du moins pas de bonnes. Stability AI affirme qu’il n’est pas optimisé pour cela, et suggère que les utilisateurs cherchant ces capacités optent pour le service Stable Audio premium de la société.”
Cependant, Stable Audio Open a ses limites. Il ne peut pas produire de chansons complètes, de mélodies ou de voix — du moins pas de bonnes. Stability AI affirme qu’il n’est pas optimisé pour cela, et suggère que les utilisateurs à la recherche de ces capacités optent pour le service Stable Audio premium de l’entreprise. Stable Audio Open ne peut pas non plus être utilisé commercialement ; ses conditions de service l’interdisent. Et il ne performe pas aussi bien à travers les styles musicaux et les cultures ou avec les descriptions dans des langues autres que l’anglais — des biais que Stability AI attribue aux données d’entraînement. “La source des données manque potentiellement de diversité et toutes les cultures ne sont pas également représentées dans le jeu de données”, a écrit Stability AI dans une description du modèle. “Les échantillons générés par le modèle refléteront les biais des données d’entraînement.”
Stability AI, qui a longtemps lutté pour redresser son activité en difficulté, a récemment fait l’objet d’une controverse après la démission de son vice-président des audio génératives, Ed Newton-Rex, suite à un désaccord avec la position de l’entreprise selon laquelle former des modèles d’IA générative sur des œuvres protégées par le droit d’auteur constitue une “utilisation équitable”. Stable Audio Open semble être une tentative pour renverser ce récit, tout en faisant subtilement de la publicité pour les produits payants de Stability AI. À mesure que les générateurs de musique, y compris celui de Stability, gagnent en popularité, le droit d’auteur — et les moyens par lesquels certains créateurs de générateurs pourraient en abuser — devient un point central d’intérêt.
En mai, Sony Music, qui représente des artistes comme Billy Joel, Doja Cat et Lil Nas X, a envoyé une lettre à 700 entreprises d’IA mettant en garde contre l'”utilisation non autorisée” de son contenu pour la formation de générateurs audio. Et en mars, la première loi américaine visant à réprimer les abus de l’IA dans la musique a été promulguée dans le Tennessee.