Voicebox représente une avancée significative dans le domaine de la synthèse vocale en permettant le clonage de voix en seulement trois secondes à partir d’un extrait audio minimal. Cette application open source, compatible avec macOS, Windows et Docker, fonctionne entièrement localement, évitant ainsi de confier ses fichiers sensibles à un service cloud. Elle ne nécessite ni compte utilisateur ni crédits, ce qui en fait une solution accessible et pratique pour les amateurs comme pour les professionnels souhaitant une autonomie totale.
Equipée de cinq moteurs TTS diversifiés, Voicebox offre une compatibilité linguistique étendue. Par exemple, Qwen3 couvre 10 langues avec la capacité d’intégrer des instructions en langage naturel, tandis que Chatterbox Multilingual supporte 23 langues, allant de l’arabe au swahili. La puissance de LuxTTS, capable de fonctionner à 150 fois la vitesse du réel, se limite pour l’instant à l’anglais, mais illustre la performance impressionnante de cette technologie. La possibilité d’injecter des tags dans le texte, tels que [laugh] ou [sigh], permet d’ajouter des nuances émotionnelles à la parole synthétisée, renforçant ainsi la naturalité des voix générées.
Voicebox est une solution complète pour ceux qui souhaitent faire du clonage vocal en local, alliant rapidité, diversité linguistique et liberté d’intégration dans leurs scripts ou pipelines.
Au-delà de la simple synthèse, Voicebox propose une API REST locale, accessible via localhost:17493, favorisant l’intégration dans des workflows automatisés, que ce soit pour générer des podcasts, piloter des applications ou monter des projets audio complexes avec ffmpeg. La post-production n’est pas en reste, avec huit effets audio intégrés, tels que reverb ou delay, et un éditeur multi-pistes permettant de composer des dialogues ou des narrations sophistiquées. La gestion des profils vocaux et la file d’attente de génération offrent une expérience utilisateur fluide et personnalisée.
Il convient toutefois de noter que ce projet, lancé en janvier 2024, reste encore récent. L’absence de binaires Linux pré-compilés impose une compilation manuelle, ce qui peut représenter un défi pour certains utilisateurs. La complexité de supporter cinq moteurs différents, chacun avec ses dépendances, conduit à une consommation importante d’espace disque. La technologie repose sur Rust et Tauri, privilégiant ainsi la légèreté et la performance, avec une compatibilité hardware renforcée par MLX sur Apple Silicon et CUDA ou ROCm sur d’autres plateformes. Ending, Voicebox offre une alternative locale efficace et gratuite pour le clonage vocal sans les limitations des services cloud établis.
