Mistral lance un nouveau modèle open source pour la génération de parole

Le jeudi, la société française d’intelligence artificielle Mistral a dévoilé un nouveau modèle de synthèse vocale en open source, destiné à être utilisé par des assistants vocaux ou dans des cas d’usage en entreprise tels que le support client. Ce modèle permet aux entreprises de créer des agents vocaux pour la vente et l’engagement client, positionnant ainsi Mistral en concurrent direct de sociétés comme ElevenLabs, Deepgram ou OpenAI.

Ce nouveau modèle, baptisé Voxtral TTS, supporte neuf langues dont l’anglais, le français, l’allemand, l’espagnol, le néerlandais, le portugais, l’italien, l’hindi et l’arabe. Selon Pierre Stock, vice-président des opérations scientifiques chez Mistral AI, « nos clients demandaient un modèle de parole. Nous avons donc développé un petit modèle capable de s’intégrer dans une montre connectée, un smartphone, un ordinateur portable ou d’autres dispositifs en edge computing. Son coût est une fraction de celui des autres solutions sur le marché, tout en offrant des performances de pointe. »

Ce modèle, conçu pour un rendu en temps réel, vise à permettre une adoption plus large grâce à sa flexibilité et ses performances à la fois abordables et naturelles.

Le Voxtral TTS est capable d’adapter une voix personnalisée à partir d’un échantillon de moins de cinq secondes, capturant des subtilités telles que les accents, les inflexions, les intonations et les irrégularités du flux speech. Construite sur la base de Ministral 3B, cette technologie peut aisément passer d’une langue à une autre sans perdre les caractéristiques de la voix, une fonction particulièrement utile pour le doublage ou la traduction en temps réel. Mistral insiste sur le fait que le modèle a été conçu pour sonorité humaine, évitant ainsi l’effet robotique souvent associé aux technologies de synthèse vocale.

Avec un temps de réponse initiale de 90 millisecondes pour un extrait de 10 secondes et une capacité de traitement en temps réel avec un facteur RTF de 6x, le modèle peut générer en environ 1.6 secondes un clip de 10 secondes, assurant une performance efficace pour des applications en direct. La société avait déjà lancé cette année deux modèles de transcription destinés respectivement à des traitements batch importants et à des utilisations en temps réel avec une faible latence.

En intégrant ce nouveau modèle vocal à sa gamme de produits, Mistral semble viser à offrir une solution complète aux entreprises, avec une plateforme capable de gérer des flux multimodaux combinant audio, texte et image, et produisant des résultats intégrés. Selon Pierre Stock, la capacité d’adaptation et la personnalisation open source du modèle faciliteront son adoption face à la concurrence, en permettant aux entreprises de l’ajuster à leur convenance pour des usages spécifiques.

Partagez cet article
article précédent

Présentation des 11 opérateurs de compétences – Opco – Centre Inffo

article suivant

Le nouveau modèle d’IA de génération vidéo de ByteDance, Dreamina Seedance 2.0, arrive sur CapCut

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles