Une semaine tumultueuse pour OpenAI, marquée par des départs de haut rang et des évolutions majeures en matière de collecte de fonds, la start-up n’a pas perdu de temps pour tenter de convaincre les développeurs de construire des outils avec ses modèles d’IA. Lors de son DevDay 2024, la société a annoncé mardi plusieurs nouveaux outils, dont une version bêta publique de son “Realtime API”, pour construire des applications avec des réponses vocales générées par l’IA à faible latence. Ce n’est pas tout à fait le mode de voix avancé de ChatGPT, mais c’est proche. Lors d’un briefing avec les journalistes avant l’événement, le directeur des produits d’OpenAI, Kevin Weil, a déclaré que les départs récents du directeur de la technologie Mira Murati et du directeur de la recherche Bob McGrew n’affecteraient pas les progrès de la société.
“Je commencerai par dire que Bob et Mira ont été d’excellents leaders. J’ai beaucoup appris d’eux, et ils ont joué un rôle crucial pour nous amener là où nous en sommes aujourd’hui”, a déclaré Weil. “Et aussi, nous ne ralentirons pas.” Alors que OpenAI subit encore une autre réorganisation de sa suite C-suite – un rappel de la tourmente qui a suivi le DevDay de l’année dernière – la société tente de convaincre les développeurs qu’elle offre toujours la meilleure plate-forme pour construire des applications IA. Selon les dirigeants, la start-up compte plus de 3 millions de développeurs qui construisent avec ses modèles d’IA, mais OpenAI évolue dans un espace de plus en plus compétitif.
OpenAI a noté qu’elle avait réduit de 99% les coûts pour les développeurs d’accéder à son API au cours des deux dernières années, probablement contrainte de le faire par des concurrents tels que Meta et Google qui ne cessent de baisser leurs prix.
L’une des nouvelles fonctionnalités d’OpenAI, appelée Realtime API, donnera aux développeurs la possibilité de créer des expériences de parole à parole en quasi-temps réel dans leurs applications, avec le choix d’utiliser six voix fournies par OpenAI. Ces voix sont distinctes de celles proposées pour ChatGPT, et les développeurs ne peuvent pas utiliser des voix tierces, afin de prévenir des problèmes de droits d’auteur. (La voix ambiguë basée sur celle de Scarlett Johansson n’est disponible nulle part.)
Durant le briefing, le responsable de l’expérience développeur d’OpenAI, Romain Huet, a partagé une démo d’une application de planification de voyages construite avec le Realtime API. L’application permettait aux utilisateurs de parler verbalement avec un assistant IA au sujet d’un prochain voyage à Londres et d’obtenir des réponses à faible latence. Le Realtime API a également accès à un certain nombre d’outils, donc l’application a pu annoter une carte avec des lieux de restaurant pendant qu’elle répondait. À un autre moment, Huet a montré comment le Realtime API pouvait parler au téléphone avec un humain pour se renseigner sur la commande de nourriture pour un événement.
En tant que partie de ses annonces DevDay, OpenAI a également introduit la vision de l’ajustement fin dans son API, qui permettra aux développeurs d’utiliser des images, ainsi que du texte, pour affiner leurs applications de GPT-4o. Cela devrait, en théorie, aider les développeurs à améliorer les performances de GPT-4o pour des tâches impliquant la compréhension visuelle. Le directeur produit de l’API d’OpenAI, Olivier Godement, a indiqué à TechCrunch que les développeurs ne pourraient pas télécharger des images protégées par des droits d’auteur (comme une image de Donald Duck), des images représentant de la violence, ou d’autres images violant les politiques de sécurité d’OpenAI.