2 min de lecture

OpenAI lance de nouvelles fonctionnalités d’intelligence vocale dans son API

8 mai 2026

OpenAI a annoncé jeudi le déploiement de plusieurs nouvelles fonctionnalités intégrant l’intelligence vocale dans son API, conçues pour aider les développeurs à créer des applications capables de parler, transcrire et traduire des conversations avec leurs utilisateurs. Parmi ces innovations, le modèle GPT‑Realtime‑2 a été présenté comme un outil de simulation vocale réaliste, capable d’interagir en dialogue avec les utilisateurs.

Ce nouveau modèle, construit avec une capacité de raisonnement comparable à celle de GPT‑5, vise à gérer des demandes plus complexes que son prédécesseur, GPT-Realtime-1.5. Par ailleurs, OpenAI lance également GPT‑Realtime‑Translate, une fonctionnalité de traduction en temps réel disposant de plus de 70 langues en compréhension et de 13 en traduction, permettant aux utilisateurs de converser dans leur langue maternelle tout en étant compris dans une autre langue.

Une autre avancée clé est la nouvelle capacité de transcription, GPT-Realtime-Whisper, qui offre une conversion en direct de la parole en texte lors des interactions. Selon OpenAI, ces modèles producteurs d’audio en temps réel font évoluer les interfaces vocales vers des interactions plus dynamiques, où l’IA ne se contente plus de répondre, mais peut également écouter, raisonner, traduire, transcrire et agir au fil de la conversation.

“Ces modèles transforment l’audio en temps réel de la simple réponse à une interaction intelligente capable de comprendre et d’agir.”

Ces innovations devraient principalement bénéficier aux entreprises souhaitant renforcer leurs capacités de service client, mais OpenAI souligne aussi que ces fonctionnalités trouvent des applications dans l’éducation, les médias, l’événementiel et les plateformes créatives. Malgré leur potentiel, ces outils risquent également d’être détournés à des fins malveillantes ; c’est pourquoi OpenAI a intégré des garde-fous visant à prévenir les abus, comme la détection de contenus nuisibles ou frauduleux.

Les nouveaux modèles vocaux sont accessibles via l’API Realtime d’OpenAI. La facturation dépend de l’utilisation : GPT-Realtime-2 est facturé par token, tandis que Translate et Whisper le sont à la minute. Dans un contexte où la frontière entre innovation et sécurité reste à surveiller, ces outils marquent une étape importante dans l’évolution de l’intelligence artificielle conversationnelle.

Source: OpenAI launches new voice intelligence features in its API

article précédent

Comment Mythos d’Anthropic a révolutionné l’approche de Firefox en matière de cybersécurité

article suivant

OpenAI lance de nouvelles fonctionnalités d’intelligence vocale dans son API

Comment Mythos d’Anthropic a révolutionné l’approche de Firefox en matière de cybersécurité

OpenAI introduit une nouvelle protection « Contact de confiance » pour les cas de possibles auto-mutilations

Laisser un commentaire Annuler la réponse

Linux tire un trait sur AppleTalk – Korben

Le week-end ne dure qu’un seul jour au Brésil: grâce une vidéo virale d’un salarié épuisé, le pays est sur le point de renoncer à la semaine de 6 jours (mais ça ne fait pas l’unanimité)

Meredith Whittaker de Signal insiste : les chatbots IA « ne sont pas vos amis »

Chômage après une rupture conventionnelle individuelle : durées d’indemnisation réduites – Centre Inffo

De PGP à Mythos : une brève histoire des contrôles à l’exportation qui n’ont empêché personne

OpenAI lance de nouvelles fonctionnalités d’intelligence vocale dans son API

Partagez cet article

Comment Mythos d’Anthropic a révolutionné l’approche de Firefox en matière de cybersécurité

OpenAI introduit une nouvelle protection « Contact de confiance » pour les cas de possibles auto-mutilations

Laisser un commentaire Annuler la réponse

Lire plus d'articles