“`html
Avec la montée en puissance des systèmes d’IA, la parole devient rapidement le mode de communication par défaut avec les machines. Dans ce contexte, la startup française Mistral s’est engouffrée dans la course à l’audio en annonçant la sortie de son premier modèle ouvert, nommé Voxtral. Ce modèle vise à contester la suprématie des systèmes propriétaires en proposant des alternatives à poids ouverts au service des entreprises.
Ce mardi, Mistral a dévoilé Voxtral, sa première famille de modèles audio destinée aux entreprises. La société présente Voxtral comme le premier modèle ouvert capable de déployer une « intelligence de la parole véritablement utilisable en production ». En d’autres termes, les développeurs ne devront plus choisir entre un système bon marché, mais peu fiable pour les transcriptions, et une solution performante, mais fermée, entraînant des coûts élevés et une perte de contrôle sur le déploiement.
Grâce à Voxtral, Mistral propose une alternative abordable aux modèles audio propriétaires, permettant aux entreprises de bénéficier d’une technologie de pointe à moindre coût.
Pour les entreprises, cela signifie que Voxtral offre une alternative abordable que la société affirme être « moins de la moitié du prix » des solutions comparables. Mistral indique que Voxtral peut transcrire jusqu’à 30 minutes d’audio. Grâce à son architecture de modèle de langage de grande taille, Mistral Small 3.1, il peut comprendre jusqu’à 40 minutes, permettant aux utilisateurs de poser des questions sur le contenu audio, de générer des résumés ou de transformer des commandes vocales en actions en temps réel telles que l’appel à des API ou l’exécution de fonctions.
Voxtral est également multilingue, capable de transcrire et de comprendre des langues telles que l’anglais, l’espagnol, le français, le portugais, l’hindi, l’allemand, le néerlandais et l’italien. Mistral propose deux variantes de ses « modèles de compréhension de la parole ». La première, Voxtral Small, possède 24 milliards de paramètres pour des déploiements à échelle de production, et reste compétitive face à des produits comme ElevenLabs Scribe et GPT-4o-mini. La seconde, Voxtral Mini, dispose de 3 milliards de paramètres pour des déploiements locaux et en périphérie.
Enfin, il existe une version API ultra-économique et simplifiée de ce modèle de 3 milliards de paramètres, appelée Voxtral Mini Transcribe, optimisée pour des cas d’utilisation de transcription uniquement, promettant des performances supérieures à celles d’OpenAI Whisper pour moins de la moitié du prix. Les utilisateurs peuvent essayer Voxtral gratuitement en téléchargeant l’API sur Hugging Face ou en testant les modèles dans le chatbot de Mistral, Le Chat. L’intégration de l’API dans des applications débute à 0,001 $ par minute, selon Mistral.
Ce lancement fait suite à l’annonce, le mois dernier, par Mistral de Magistral, sa première famille de modèles de raisonnement qui abordent les problèmes étape par étape pour une meilleure fiabilité. Mistral, l’une des principales entreprises d’IA en Europe, est bien connue pour sa défense des modèles d’IA open source. Plus tôt dans le mois, TechCrunch rapportait que la société est en pourparlers pour lever jusqu’à 1 milliard de dollars en capital auprès d’investisseurs tels que le fonds MGX d’Abou Dabi.
“`