En mai dernier, lorsqu’OpenAI a dévoilé pour la première fois un “mode vocal avancé” presque en temps réel pour sa plateforme de chatbot alimentée par l’IA, ChatGPT, l’entreprise a déclaré que cette fonction serait disponible dans les prochaines semaines pour les utilisateurs payants de ChatGPT. Cependant, des mois plus tard, OpenAI annonce qu’elle a besoin de plus de temps. Dans une publication sur le serveur Discord officiel d’OpenAI, l’entreprise indique qu’elle avait prévu de commencer à déployer le mode vocal avancé en version alpha à un petit groupe d’utilisateurs de ChatGPT Plus fin juin, mais que des problèmes persistants l’ont forcée à reporter le lancement à une date ultérieure en juillet.
“Par exemple, nous améliorons la capacité du modèle à détecter et à refuser certains contenus”, écrit OpenAI. “Nous travaillons également à améliorer l’expérience utilisateur et à préparer notre infrastructure à répondre aux millions d’utilisateurs tout en maintenant des réponses en temps réel. Dans le cadre de notre stratégie de déploiement itératif, nous commencerons l’alpha avec un petit groupe d’utilisateurs pour recueillir leurs commentaires et nous développerons en fonction de ce que nous apprenons”.
Le mode vocal avancé pourrait ne pas être lancé pour tous les clients de ChatGPT Plus avant l’automne, indique OpenAI, en fonction de certaines vérifications internes de sécurité et de fiabilité. Le retard n’affectera cependant pas le déploiement des nouvelles capacités de partage vidéo et d’écran démontrées séparément lors de l’événement de presse du printemps d’OpenAI.
“Le mode vocal avancé de ChatGPT peut comprendre et réagir avec des émotions et des signaux non verbaux, nous rapprochant des conversations naturelles en temps réel avec l’IA”, écrit OpenAI.
Ces capacités permettent par exemple de résoudre des problèmes de mathématiques à partir d’une photo du problème, ou d’expliquer différents menus de paramètres sur un appareil. Elles sont conçues pour fonctionner sur ChatGPT sur les smartphones ainsi que sur les clients de bureau, tels que l’application macOS, qui est devenue accessible à tous les utilisateurs de ChatGPT aujourd’hui.
Lors de l’événement de lancement, les employés d’OpenAI ont montré que ChatGPT répondait presque instantanément à des demandes comme la résolution d’un problème de mathématiques sur une feuille placée devant la caméra du smartphone d’un chercheur. La voix avancée d’OpenAI a suscité une certaine controverse en raison de la ressemblance de la voix par défaut “Sky” avec celle de l’actrice Scarlett Johansson. Johansson a par la suite déclaré qu’elle avait engagé un conseil juridique pour se renseigner sur la voix et obtenir des détails précis sur son développement, et qu’elle avait refusé plusieurs sollicitations d’OpenAI pour licencier sa voix pour ChatGPT. OpenAI, en niant avoir utilisé la voix de Johansson sans son autorisation, a par la suite retiré la voix litigieuse.