Jeudi dernier, OpenAI a lancé ce qui est essentiellement un chatbot à 200 $ par mois – et la communauté IA ne savait pas trop quoi en penser. Le nouveau forfait ChatGPT Pro de l’entreprise offre l’accès au “mode o1 pro”, qui, selon OpenAI, “utilise plus de ressources informatiques pour apporter les meilleures réponses aux questions les plus complexes”. Une version améliorée du modèle de raisonnement o1 de OpenAI, le mode o1 pro devrait répondre aux questions liées à la science, aux mathématiques et à la programmation de manière plus “fiable” et “complète”, déclare OpenAI. Presque immédiatement, les gens ont commencé à lui demander de dessiner des licornes, de concevoir un ordinateur “à base de crabe” et de se livrer à des réflexions poétiques sur le sens de la vie.
Cependant, beaucoup de gens ne semblaient pas convaincus que les réponses du mode o1 pro valaient vraiment 200 $. “OpenAI a-t-elle partagé des exemples concrets de requêtes qui échouent en o1 normal mais réussissent en o1 pro ?” a demandé le scientifique britannique en informatique, Simon Willison. “Je veux voir un seul exemple concret qui en montre l’avantage”. C’est une question raisonnable, après tout, il s’agit de l’abonnement de chatbot le plus cher au monde. Le service offre d’autres avantages, comme la suppression des limites de taux et l’accès illimité aux autres modèles de OpenAI. Mais 2 400 $ par an, ce n’est pas une petite somme, et la proposition de valeur du mode o1 pro en particulier reste floue.
“Il m’a semblé risqué d’augmenter le prix de dix fois”, a déclaré par e-mail à TechCrunch, Ameet Talwalkar, professeur associé de machine learning à Carnegie Mellon et partenaire chez Amplify Partners. “Je pense que nous aurons une bien meilleure idée de l’appétit pour cette fonctionnalité dans quelques semaines seulement”.
Il n’a pas fallu longtemps pour trouver des cas d’échec. Le mode o1 pro a du mal avec le Sudoku, et il est déconcerté par une blague d’illusion optique qui est évidente pour tout humain. Les benchmarks internes de OpenAI montrent que le mode o1 pro ne fonctionne que légèrement mieux que le standard o1 sur les problèmes de codage et de mathématiques. OpenAI a effectué une évaluation “plus stricte” sur les mêmes benchmarks pour mettre en évidence la cohérence du mode o1 pro : le modèle n’était considéré comme ayant résolu une question que s’il avait obtenu la bonne réponse quatre fois sur quatre. Mais même dans ces tests, les améliorations n’étaient pas spectaculaires.
Le PDG de OpenAI, Sam Altman, qui a une fois écrit que OpenAI était sur la voie “vers une intelligence trop bon marché pour être mesurée”, a été contraint de clarifier à plusieurs reprises jeudi que ChatGPT Pro n’est pas pour tout le monde. “La plupart des utilisateurs seront très satisfaits du o1 dans le niveau Plus de [ChatGPT] !”, a-t-il déclaré. “Pratiquement tout le monde sera mieux servi par notre niveau gratuit ou par le niveau Plus”. Alors, pour qui est-il ? Existe-t-il vraiment des gens prêts à payer 200 $ par mois pour poser des questions enfantines comme “Rédigez une dissertation de trois paragraphes sur les fraises sans utiliser la lettre ‘e'” ou “résolvez ce problème des Olympiades de mathématiques” ? Vont-ils facilement se séparer de leur argent durement gagné sans beaucoup de garanties que le standard o1 ne peut pas répondre satisfaisamment aux mêmes questions ?
Une interprétation généreuse serait que c’est une gaffe marketing. Décrire le mode o1 pro comme étant le meilleur pour résoudre “les problèmes les plus difficiles” ne dit pas grand-chose aux clients potentiels. Et des déclarations vagues sur la façon dont le modèle peut “penser plus longtemps” et faire preuve d'”intelligence” n’apportent pas non plus beaucoup d’informations. Comme le souligne Willison, sans exemples spécifiques de cette capacité supposément améliorée, il est difficile de justifier de payer plus, et encore moins dix fois le prix.