Mardi, Amazon a présenté un nouveau modèle d’IA générative, Nova Sonic, capable de traiter nativement la voix et de générer une élocution naturelle. Amazon affirme que les performances de Sonic sont compétitives avec les modèles de voix les plus avancés d’OpenAI et de Google en matière de rapidité, de reconnaissance vocale et de qualité conversationnelle. Nova Sonic est la réponse d’Amazon aux nouveaux modèles de voix d’IA tels que le modèle qui alimente le mode Voix de ChatGPT, qui est plus naturel à utiliser que les modèles rigides des premiers jours d’Amazon Alexa. Les récentes avancées technologiques ont rendu les modèles historiques et les assistants numériques qu’ils soutiennent, tels qu’Alexa et Siri d’Apple, incroyablement rigides en comparaison.
Nova Sonic est disponible via Bedrock, la plateforme de développement d’Amazon pour la construction d’applications d’IA d’entreprise, via une nouvelle API de streaming bidirectionnelle. Dans un communiqué de presse, Amazon a qualifié Nova Sonic de “modèle de voix IA le plus rentable” sur le marché, et environ 80% moins cher que le GPT-4o de OpenAI. Les composants de Nova Sonic alimentent déjà Alexa+, l’assistant vocal numérique amélioré d’Amazon, selon le vice-président d’Amazon et le chef scientifique d’AGI, Rohit Prasad.
En interview, Prasad a déclaré à TechCrunch que Nova Sonic s’appuie sur l’expertise d’Amazon en matière de “grands systèmes d’orchestration”, l’échafaudage technique qui compose Alexa.
Comparé à ses rivaux, Nova Sonic excelle dans le routage des demandes des utilisateurs vers différentes API, a déclaré Prasad. Cette capacité aide Nova Sonic à “savoir” quand elle doit récupérer des informations en temps réel sur internet, analyser une source de données propriétaires, ou agir dans une application externe – et utiliser l’outil approprié pour le faire. Lors d’un dialogue bidirectionnel, Nova Sonic attend de parler “au bon moment”, en tenant compte des pauses et des interruptions du locuteur, selon Amazon. Il génère également une transcription textuelle du discours de l’utilisateur, que les développeurs peuvent utiliser pour diverses applications.
Nova Sonic est moins sujette aux erreurs de reconnaissance vocale que les autres modèles de voix d’IA, selon Prasad, ce qui signifie que le modèle est relativement bon pour comprendre l’intention d’un utilisateur même s’il marmonne, se trompe, ou est dans un environnement bruyant. Sur un benchmark mesurant la reconnaissance vocale à travers les langues et les dialectes, le Multilingual LibriSpeech, Amazon dit que Nova Sonic a atteint un taux d’erreur de mots (WER) de seulement 4,2% en moyenne en anglais, français, italien, allemand et espagnol. Cela signifie que près de quatre mots sur cent du modèle diffèrent d’une transcription humaine dans ces langues.
Sur un autre benchmark mesurant les interactions bruyantes avec plusieurs participants, le Augmented Multi Party Interaction, Amazon affirme que Nova Sonic était 46,7% plus précis en termes de WER que le modèle GPT-4o-transcribe de OpenAI. Nova Sonic a également une vitesse de pointe dans l’industrie, avec une latence perçue moyenne de 1,09 secondes, selon Amazon. Cela le rend plus rapide que le modèle GPT-4o qui alimente l’API en temps réel de OpenAI, qui répond en 1,18 secondes, selon les benchmarking de Artificial Analysis. Prasad déclare que Nova Sonic fait partie de la stratégie plus large d’Amazon pour construire une AGI (intelligence générale artificielle), que l’entreprise définit comme “des systèmes d’IA qui peuvent faire tout ce qu’un humain peut faire sur un ordinateur”.