“OpenAI’s o3 suggère que les modèles d’IA évoluent de nouvelles manières – mais les coûts aussi | TechCrunch”

Generated with DALL·E 3

Le mois dernier, les fondateurs et investisseurs de l’IA ont déclaré à TechCrunch que nous sommes maintenant dans la “deuxième ère des lois d’échelle”, notant comment les méthodes établies pour améliorer les modèles d’IA montraient des rendements diminuant. Une nouvelle méthode prometteuse qu’ils ont suggérée pourrait maintenir les gains était le “test-time scaling”, qui semble être ce qui se cache derrière les performances du modèle o3 d’OpenAI – mais il vient avec ses propres inconvénients. Une grande partie du monde de l’IA a pris l’annonce du modèle o3 d’OpenAI comme une preuve que le progrès de l’échelle de l’IA n’a pas “frappé un mur”. Le modèle o3 se comporte bien sur les benchmarks, dépassant de manière significative tous les autres modèles sur un test de capacité générale appelé ARC-AGI, et obtenant 25% sur un test de mathématiques difficile que aucun autre modèle d’IA n’a obtenu plus de 2%.

Bien sûr, nous chez TechCrunch prenons tout cela avec un grain de sel jusqu’à ce que nous puissions tester o3 par nous-mêmes (très peu l’ont essayé jusqu’à présent). Mais même avant la sortie d’o3, le monde de l’IA est déjà convaincu qu’un grand changement a eu lieu. Le co-créateur des modèles de l’IA de la série o3, Noam Brown, a noté vendredi que la startup annonce les gains impressionnants d’o3 seulement trois mois après l’annonce de o1 par la startup – un laps de temps relativement court pour un tel bond en avant. “Nous avons toutes les raisons de croire que cette trajectoire va continuer”, a déclaré Brown dans un tweet. Jack Clark, le cofondateur d’Anthropic, a déclaré dans un article de blog lundi que o3 est une preuve que le “progrès de l’IA sera plus rapide en 2025 qu’en 2024”. (N’oubliez pas qu’il est avantageux pour Anthropic – notamment pour sa capacité à lever des capitaux – de suggérer que les lois de l’échelle de l’IA continuent, même si Clark complète un concurrent.)

L’année prochaine, Clark dit que le monde de l’IA va fusionner le test-time scaling et les méthodes de pré-entraînement traditionnelles pour obtenir encore plus de retour sur les modèles d’IA.

Il suggère peut-être qu’Anthropic et d’autres fournisseurs de modèles d’IA lanceront leurs propres modèles de raisonnement en 2025, tout comme Google l’a fait la semaine dernière. Le test-time scaling signifie qu’OpenAI utilise plus de calcul pendant la phase d’inférence de ChatGPT, la période de temps après avoir appuyé sur entrée pour une incitation. Il n’est pas clair exactement ce qui se passe en coulisse : OpenAI utilise soit plus de puces informatiques pour répondre à la question d’un utilisateur, soit des puces d’inférence plus puissantes, soit celles-ci pour des périodes de temps plus longues – 10 à 15 minutes dans certains cas – avant que l’IA ne produise une réponse.

Nous ne connaissons pas tous les détails de la fabrication d’o3, mais ces benchmarks sont des signes précoces que le test-time scaling peut fonctionner pour améliorer les performances des modèles d’IA. Alors que o3 peut donner à certains une croyance renouvelée dans le progrès des lois d’échelle de l’IA, le dernier modèle d’OpenAI utilise également un niveau de calcul jamais vu auparavant, ce qui signifie un prix plus élevé par réponse.

Clark, et d’autres, ont pointé les performances d’o3 sur le benchmark ARC-AGI – un test difficile utilisé pour évaluer les percées sur l’AGI – comme un indicateur de son progrès. Il convient de noter que réussir ce test, selon ses créateurs, ne signifie pas qu’un modèle d’IA a atteint l’AGI, mais plutôt qu’il s’agit d’une façon de mesurer les progrès vers cet objectif nébuleux. Cela dit, le modèle o3 a dépassé les scores de tous les précédents modèles d’IA qui avaient passé le test, obtenant 88% dans l’une de ses tentatives. Le meilleur modèle d’IA d’OpenAI, o1, n’a obtenu que 32%.

Partagez cet article
article précédent

Présentation du référentiel de diagnostic global par le Comité national pour l’emploi – Centre Inffo

article suivant

Matériaux de construction : baisse du nombre de contrats d’alternance – Centre Inffo

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles