OpenAI lance o3-mini, son dernier modèle de “raisonnement”

Generated with DALL·E 3

OpenAI a lancé vendredi son nouveau modèle de “raisonnement” en intelligence artificielle, o3-mini, le plus récent de la famille des modèles de raisonnement de la société. OpenAI avait donné un premier aperçu du modèle en décembre, en même temps que l’annonce d’un système plus performant appelé o3, mais le lancement intervient à un moment crucial pour l’entreprise, dont les ambitions – et les défis – semblent croître de jour en jour. OpenAI lutte contre l’idée qu’elle perd du terrain dans la course à l’IA face à des entreprises chinoises comme DeepSeek, qu’elle accuse d’avoir peut-être volé sa propriété intellectuelle. Elle tente de renforcer ses liens avec Washington tout en poursuivant un projet ambitieux de centre de données et semble préparer l’un des plus importants tours de financement de l’histoire. C’est là qu’intervient o3-mini. OpenAI présente son nouveau modèle comme à la fois “puissant” et “abordable”. “Le lancement d’aujourd’hui marque […] une étape importante vers l’élargissement de l’accessibilité à l’IA avancée au service de notre mission”, a déclaré un porte-parole d’OpenAI à TechCrunch.

Contrairement à la plupart des modèles linguistiques à grande échelle, les modèles de raisonnement comme o3-mini font un travail approfondi de vérification des faits avant de donner leurs résultats. Cela les aide à éviter certaines des difficultés qui font normalement trébucher les modèles. Ces modèles de raisonnement mettent un peu plus de temps à trouver des solutions, mais le compromis est qu’ils ont tendance à être plus fiables – bien que non parfaits – dans des domaines comme la physique. L’o3-mini est spécialement conçu pour les problèmes STEM, spécifiquement pour la programmation, les mathématiques et les sciences. OpenAI affirme que le modèle est en grande partie à la hauteur de la famille o1, o1 et o1-mini, en termes de capacités, mais qu’il fonctionne plus rapidement et coûte moins cher. L’entreprise a affirmé que les testeurs externes ont préféré les réponses de l’o3-mini à celles de l’o1-mini plus de la moitié du temps. L’o3-mini aurait également commis 39% de “grosses erreurs” en moins sur des “questions difficiles du monde réel” dans les tests A/B par rapport à l’o1-mini, et aurait produit des réponses “plus claires” tout en fournissant des réponses environ 24% plus rapidement.

“OpenAI affirme que o3-mini est aussi” sûre “ou plus sûre que la famille o1, grâce aux efforts de red teaming et à sa méthodologie d'” alignement délibératif “, qui fait ” réfléchir ” les modèles sur la politique de sécurité d’OpenAI pendant qu’ils répondent aux requêtes.”

L’o3-mini sera disponible pour tous les utilisateurs via ChatGPT à partir de vendredi, mais les utilisateurs qui paient pour les plans ChatGPT Plus et Team auront une limite de taux plus élevée de 150 requêtes par jour. Les abonnés à ChatGPT Pro auront un accès illimité, et o3-mini arrivera aux clients de ChatGPT Enterprise et ChatGPT Edu dans une semaine. (Pas encore de mots sur ChatGPT Gov). Les utilisateurs avec des plans premium peuvent sélectionner o3-mini en utilisant le menu déroulant de ChatGPT. Les utilisateurs gratuits peuvent cliquer ou tapoter le nouveau bouton “Reason” dans la barre de chat, ou avoir ChatGPT “re-générer” une réponse. A partir de vendredi, o3-mini sera également disponible via l’API d’OpenAI pour certains développeurs, mais il ne supportera initialement pas l’analyse d’images. Les développeurs peuvent sélectionner le niveau d’ “effort de raisonnement” (faible, moyen, ou élevé) pour faire “réfléchir plus fort” o3-mini en fonction de leur cas d’utilisation et de leurs besoins en latence. O3-mini est tarifé à 0,55 $ par million de tokens d’entrée en cache et 4,40 $ par million de tokens de sortie, où un million de tokens équivaut à environ 750 000 mots. C’est 63% moins cher que o1-mini, et concurrentiel avec le pricing du modèle de raisonnement R1 de DeepSeek qui facture 0,14 $ par million de tokens d’entrée en cache et 2,19 $ par million de tokens de sortie pour l’accès R1 via son API. Dans ChatGPT, o3-mini est réglé sur un effort de raisonnement moyen, qui, selon OpenAI, offre “un équilibre entre vitesse et précision”. Les utilisateurs payants auront la possibilité de sélectionner “o3-mini-high” dans le sélecteur de modèle, qui fournira ce qu’OpenAI appelle une “intelligence supérieure” en échange de réponses plus lentes. Quelle que soit la version de l’o3-mini que les utilisateurs de ChatGPT choisissent, le modèle travaillera avec la recherche pour trouver des réponses à jour avec des liens vers des sources web pertinentes. OpenAI précise que la fonctionnalité est un “prototype” dans la mesure où elle travaille à intégrer la recherche dans ses modèles de raisonnement.

L’o3-mini n’est pas le modèle le plus puissant d’OpenAI à ce jour, et il ne dépasse pas le modèle de raisonnement R1 de DeepSeek dans tous les benchmarks. L’o3-mini bat R1 sur AIME 2024, un test qui mesure la capacité des modèles à comprendre et à répondre à des instructions complexes – mais seulement avec un effort de raisonnement élevé. Il bat également R1 sur le test axé sur la programmation SWE-bench Verified (de 0,1 point), mais là encore, seulement avec un effort de raisonnement élevé. Avec un effort de raisonnement faible, o3-mini est derrière R1 sur GPQA Diamond, qui teste les modèles avec des questions de physique, de biologie et de chimie de niveau doctorat. Pour être juste, l’o3-mini répond à de nombreuses requêtes à un coût et une latence compétitifs. Dans le post, OpenAI compare ses performances à celles de la famille o1 : “Avec un effort de raisonnement faible, o3-mini obtient une performance comparable à celle de o1-mini, alors qu’avec un effort moyen, o3-mini obtient une performance comparable à celle de o1”, écrit OpenAI. “O3-mini, avec un effort de raisonnement moyen, égale la performance de o1 en mathématiques, en codage et en sciences tout en fournissant des réponses plus rapides. Pendant ce temps, avec un effort de raisonnement élevé, o3-mini surpasse à la fois o1-mini et o1.” Il convient de noter que l’avantage de performance de l’o3-mini sur l’o1 est mince dans certains domaines. Sur AIME 2024, o3-mini dépasse o1 de seulement 0,3 points de pourcentage lorsqu’il est réglé sur un effort de raisonnement élevé. Et sur GPQA Diamond, o3-mini ne dépasse pas le score de o1 même avec un effort de raisonnement élevé. OpenAI affirme que o3-mini est aussi “sûre” ou plus sûre que la famille o1, grâce à son travail d’équipe rouge et à sa méthodologie d'”alignement délibératif”, qui fait “réfléchir” les modèles à propos de la politique de sécurité d’OpenAI pendant qu’ils répondent aux requêtes. Selon l’entreprise, o3-mini “surpasse de manière significative” l’un des modèles phares d’OpenAI, GPT-4o, sur “des évaluations de sécurité et de jailbreak difficiles”. TechCrunch a une newsletter centrée sur l’IA ! Inscrivez-vous ici pour la recevoir dans votre boîte de réception tous les mercredis.

Partagez cet article
article précédent

Sam Altman : OpenAI s’est placée du ‘mauvais côté de l’histoire’ concernant l’open source | TechCrunch

article suivant

Le limogeage de Sam Altman d’OpenAI est entré dans le zeitgeist culturel | TechCrunch

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles