OpenAI a annoncé jeudi le déploiement de plusieurs nouvelles fonctionnalités intégrant l’intelligence vocale dans son API, conçues pour aider les développeurs à créer des applications capables de parler, transcrire et traduire des conversations avec leurs utilisateurs. Parmi ces innovations, le modèle GPT‑Realtime‑2 a été présenté comme un outil de simulation vocale réaliste, capable d’interagir en dialogue avec les utilisateurs.
Ce nouveau modèle, construit avec une capacité de raisonnement comparable à celle de GPT‑5, vise à gérer des demandes plus complexes que son prédécesseur, GPT-Realtime-1.5. Par ailleurs, OpenAI lance également GPT‑Realtime‑Translate, une fonctionnalité de traduction en temps réel disposant de plus de 70 langues en compréhension et de 13 en traduction, permettant aux utilisateurs de converser dans leur langue maternelle tout en étant compris dans une autre langue.
Une autre avancée clé est la nouvelle capacité de transcription, GPT-Realtime-Whisper, qui offre une conversion en direct de la parole en texte lors des interactions. Selon OpenAI, ces modèles producteurs d’audio en temps réel font évoluer les interfaces vocales vers des interactions plus dynamiques, où l’IA ne se contente plus de répondre, mais peut également écouter, raisonner, traduire, transcrire et agir au fil de la conversation.
“Ces modèles transforment l’audio en temps réel de la simple réponse à une interaction intelligente capable de comprendre et d’agir.”
Ces innovations devraient principalement bénéficier aux entreprises souhaitant renforcer leurs capacités de service client, mais OpenAI souligne aussi que ces fonctionnalités trouvent des applications dans l’éducation, les médias, l’événementiel et les plateformes créatives. Malgré leur potentiel, ces outils risquent également d’être détournés à des fins malveillantes ; c’est pourquoi OpenAI a intégré des garde-fous visant à prévenir les abus, comme la détection de contenus nuisibles ou frauduleux.
Les nouveaux modèles vocaux sont accessibles via l’API Realtime d’OpenAI. La facturation dépend de l’utilisation : GPT-Realtime-2 est facturé par token, tandis que Translate et Whisper le sont à la minute. Dans un contexte où la frontière entre innovation et sécurité reste à surveiller, ces outils marquent une étape importante dans l’évolution de l’intelligence artificielle conversationnelle.
