Stability AI lance un modèle de génération audio qui peut fonctionner sur smartphones

Generated with DALL·E 3

La startup spécialisée dans l’intelligence artificielle, Stability AI, a récemment dévoilé Stable Audio Open Small, un modèle de génération audio stéréo qu’elle affirme être le plus rapide du marché. Conçu pour être suffisamment efficace pour fonctionner sur des smartphones, ce modèle est le résultat d’une collaboration avec Arm, le célèbre fabricant de puces qui équipe de nombreux dispositifs mobiles, tels que les tablettes et les téléphones.

Alors que plusieurs applications alimentées par l’IA, comme Suno et Udio, peuvent générer de l’audio, la majorité d’entre elles dépendent du traitement dans le cloud, limitant leur utilisation hors ligne. En revanche, Stability AI prétend que le jeu de données utilisé pour entraîner Stable Audio Open Small est entièrement constitué de morceaux provenant de bibliothèques audio libres de droits, telles que le Free Music Archive et Freesound. Cette approche contraste avec les modèles comme Suno et Udio, qui utilisent des contenus protégés par des droits d’auteur, présentant ainsi un risque en matière de propriété intellectuelle.

Malgré ses atouts, Stable Audio Open Small présente certaines limitations, notamment un biais culturel dans ses résultats.

Stable Audio Open Small est un modèle de 341 millions de paramètres, optimisé pour les processeurs Arm. Il est conçu pour générer rapidement des échantillons audio courts et des effets sonores, tels que des riffs de batterie et d’instruments, pouvant produire jusqu’à 11 secondes d’audio sur un smartphone en moins de 8 secondes. Cependant, le modèle est limité à des requêtes en anglais et ne peut pas générer de voix réalistes ou de chansons de haute qualité. En outre, Stability AI prévient que le modèle ne performe pas également dans tous les styles musicaux, une conséquence directe des données d’entraînement biaisées vers la culture occidentale.

En termes de conditions d’utilisation, Stable Audio Open Small présente des restrictions. Il est gratuit pour les chercheurs, les passionnés et les entreprises ayant moins d’un million de dollars de revenus annuels. Pourtant, les développeurs et les organisations dépassant ce seuil de revenus devront acquérir une licence d’entreprise auprès de Stability AI. La société, qui a connu des difficultés financières sous la direction de son ancien cofondateur Emad Mostaque, a récemment engagé un nouveau PDG et réorganisé son conseil d’administration, en recrutant des personnalités comme le réalisateur James Cameron.

Alors que Stability AI tente de se redresser, elle continue d’innover et de développer de nouveaux modèles. Avec Stable Audio Open Small, elle aspire à faire une entrée marquante dans le domaine de la création audio sur appareils mobiles, tout en prenant en compte les challenges et les limites inhérents à ce type de technologie.

Partagez cet article
article précédent

Tencent recrute l’équipe de WizardLM, un groupe d’IA de Microsoft avec une histoire troublante

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles