Mistral lance un nouveau modèle open-source pour la génération de voix

Dimanche 14 octobre 2026, la société française d’intelligence artificielle Mistral a présenté un nouveau modèle de synthèse vocale en open-source, appelé Voxtral TTS. Conçu pour être utilisé par des assistants vocaux ou dans des contextes d’entreprise tels que le support client, ce modèle permet aux entreprises de développer des agents vocaux pour la vente et l’engagement client avec une flexibilité accrue. Avec cette nouvelle offre, Mistral s’impose comme un concurrent direct de géants comme ElevenLabs, Deepgram ou OpenAI dans le domaine de la synthèse vocale.

Le Voxtral TTS supporte neuf langues, allant de l’anglais, le français, l’allemand, l’espagnol, le néerlandais, le portugais, l’italien, l’hindi au arabe. Selon Pierre Stock, vice-président des opérations scientifiques chez Mistral AI, l’objectif était de créer un modèle compact capable d’être déployé sur des appareils edge tels que les montres connectées, smartphones ou ordinateurs portables, tout en offrant des performances de pointe à un coût réduit. La version construite sur la base du Ministal 3B se veut accessible et performante.»

Ce nouveau modèle offre une synthèse vocale réaliste, capable de s’adapter à une voix personnalisée en moins de cinq secondes, tout en étant conçu pour le traitement en temps réel.

Le Voxtral TTS est doté de capacités impressionnantes : il peut capturer les caractéristiques subtiles d’un locuteur telles que les accents, inflexions, intonations et irrégularités dans le flot de la parole. La transition fluide entre plusieurs langues, sans perte de la personnalité vocale, ouvre des horizons intéressants pour des usages comme le doublage ou la traduction instantanée. La rapidité d’exécution est également un point fort, avec un temps de lancement de la parole (TTFA) de seulement 90 millisecondes pour un extrait de 10 secondes, et un facteur de temps en temps réel (RTF) de 6x, permettant de générer une sortie vocale en environ 1,6 seconde.

Au-delà de cette avancée technologique, Mistral entend bâtir une plateforme complète capable de gérer des flux multimodaux, intégrant audio, texte, et image, afin de fournir une expérience utilisateur enrichie. La stratégie de la société repose également sur l’aspect open source et sur la possibilité de personnalisation, permettant aux entreprises de moduler le modèle selon leurs besoins spécifiques, pour un déploiement plus flexible et adapté à leurs cas d’usage.

En proposant un modèle open-source, flexible et performant, Mistral souhaite faciliter l’adoption de ses technologies vocales dans les entreprises, tout en consolidant sa position face aux principaux acteurs du marché.

Ce lancement s’inscrit dans une tendance plus large, où l’intelligence artificielle vocale devient un enjeu stratégique pour la relation client et la communication multimédia. Avec cette sortie, Mistral contribue à démocratiser une technologie auparavant réservée à de grandes entreprises, offrant ainsi de nouvelles opportunités pour l’innovation dans le domaine de la synthèse vocale en temps réel.

Partagez cet article
article précédent

Le transporteur routier Ziegler est au bord de la faillite : 1 400 emplois menacés même si le gouvernement cherche des repreneurs

article suivant

Une ‘quittance de justice’ des centres de données : la réponse d’un sénateur aux pertes d’emplois liées à l’IA

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles