Dans un AMA sur Reddit, le PDG de OpenAI, Sam Altman, a admis qu’un manque de capacité de calcul est un facteur clé qui empêche l’entreprise de livrer des produits aussi souvent qu’elle le souhaiterait. “Tous ces modèles sont devenus assez complexes”, a-t-il écrit en réponse à une question sur la raison pour laquelle les prochains modèles d’IA d’OpenAI mettaient autant de temps. “Nous sommes également confrontés à beaucoup de limitations et de décisions difficiles sur la façon dont nous avons alloué notre calcul à de nombreuses idées géniales”.
De nombreux rapports suggèrent qu’OpenAI a eu du mal à sécuriser suffisamment d’infrastructure de calcul pour exécuter et Former ses modèles génératifs. Juste cette semaine, Reuters, citant des sources, a dit qu’OpenAI collabore depuis des mois avec Broadcom pour créer une puce IA pour exécuter des modèles, qui pourrait arriver dès 2026.
En partie à cause de la capacité restreinte, a déclaré Altman, la fonction de conversation réaliste de ChatGPT d’OpenAI, Advanced Voice Mode, n’obtiendra pas les capacités de vision annoncées en premier en avril de sitôt.
Lors de son événement de presse en avril, OpenAI a montré l’application ChatGPT fonctionnant sur un smartphone et répondant à des indices visuels, tels que les vêtements portés par une personne, dans le champ de vision de la caméra du téléphone. Un reportage de Fortune a révélé plus tard que la démo avait été précipitée pour détourner l’attention de la conférence des développeurs de Google, I/O, qui se déroulait la même semaine. Beaucoup au sein d’OpenAI ne pensaient pas que GPT-4o était prêt à être révélé. Fait révélateur, la version uniquement vocale d’Advanced Voice Mode a été retardée pendant des mois.
Lors de l’AMA, Altman a indiqué que la prochaine mise en marché du générateur d’images d’OpenAI, DALL-E, n’a pas de calendrier de lancement. (“Nous n’avons pas encore de plan de sortie”, a-t-il déclaré.) Pendant ce temps, Sora, l’outil de génération de vidéos d’OpenAI, a été retardée par le “besoin de perfectionner le modèle, de bien faire les choses en matière de sécurité/impersonation etc, et de d’augmenter la capacité de calcul”, a écrit Kevin Weil, le directeur des produits d’OpenAI, qui a également participé à l’AMA. Sora a apparemment souffert de revers techniques qui la positionnent mal par rapport aux systèmes concurrents de Luma, Runway, et d’autres.
Altman a déclaré plus tard au cours de l’AMA que OpenAI envisage toujours d’autoriser le contenu “NSFW” dans ChatGPT “un jour” (“nous croyons totalement en le fait de traiter les utilisateurs adultes comme des adultes”, a-t-il écrit), et que la priorité absolue de l’entreprise est d’améliorer ses modèles de “raisonnement” de la série o1 et leurs successeurs. OpenAI a prévisualisé plusieurs caractéristiques à venir pour o1 lors de sa conférence DevDay à Londres cette semaine, incluant la compréhension des images. “Nous avons quelques très bonnes sorties prévues pour plus tard cette année”, a écrit Altman. “Rien que nous allons appeler GPT-5, cependant.”