OpenAI dévoile o1, un modèle capable de s’autovérifier | TechCrunch

Generated with DALL·E 3

Le créateur de ChatGPT, OpenAI a annoncé sa prochaine grande sortie de produit: Un modèle d’IA génératif nom de code Strawberry, officiellement appelé OpenAI o1. Plus précisément, o1 est en fait une famille de modèles. Deux sont disponibles jeudi dans ChatGPT et via l’API d’OpenAI: o1-preview et o1-mini, un modèle plus petit, plus efficace ciblant la génération de code. Il faudra être abonné à ChatGPT Plus ou Team pour voir o1 dans le client ChatGPT. Les utilisateurs d’entreprise et d’éducation auront accès au début de la semaine prochaine. Notez que l’expérience du chatbot o1 est assez rudimentaire pour le moment. Contrairement à GPT-4o, le prédécesseur de o1, o1 ne peut pas encore parcourir le web ou analyser des fichiers. Le modèle a cependant des caractéristiques d’analyse d’image, mais elles ont été désactivées en attendant des tests supplémentaires. Et o1 est limité en débit; les limites hebdomadaires sont actuellement de 30 messages pour o1-preview et 50 pour o1-mini.

Dans un autre inconvénient, o1 est cher. Très cher. Dans l’API, o1-preview coûte 15 $ par 1 million de jetons en entrée et 60 $ par 1 million de jetons en sortie. C’est 3 fois le coût de GPT-4o pour l’entrée et 4 fois le coût pour la sortie. (“Jetons” sont des bits de données brutes; 1 million est équivalent à environ 750 000 mots.) OpenAI dit qu’il prévoit d’apporter l’accès à o1-mini à tous les utilisateurs gratuits de ChatGPT mais n’a pas fixé de date de sortie. Nous tiendrons l’entreprise à sa promesse.

OpenAI o1 évite certains des pièges de raisonnement qui font normalement trébucher les modèles d’IA génératifs car il peut effectivement s’auto-vérifier en passant plus de temps à considérer toutes les parties d’une question.

Ce qui fait que o1 “semble” qualitativement différent des autres modèles d’IA génératifs est sa capacité à “réfléchir” avant de répondre aux requêtes, selon OpenAI. Lorsqu’on lui donne plus de temps pour “réfléchir”, o1 peut raisonner à travers une tâche de manière holistique — planifier à l’avance et effectuer une série d’actions sur une période de temps prolongée qui aident le modèle à arriver à une réponse. Cela rend o1 bien adapté pour les tâches nécessitant la synthèse des résultats de plusieurs sous-tâches, comme la détection des messages privilégiés dans une boîte de réception d’avocat ou la conception d’une stratégie de marketing de produit.

Dans une série de posts sur X jeudi, Noam Brown, un chercheur scientifique chez OpenAI, a déclaré que “o1 est formé avec l’apprentissage par renforcement”. Cela enseigne au système “à ‘réfléchir’ avant de répondre via une chaîne de pensée privée” grâce à des récompenses lorsque o1 obtient les bonnes réponses et des pénalités lorsqu’il ne le fait pas, a-t-il dit. Brown a fait allusion au fait qu’OpenAI a tiré parti d’un nouvel algorithme d’optimisation et d’un ensemble de données d’entraînement contenant “des données de raisonnement” et de la littérature scientifique spécifiquement adaptée aux tâches de raisonnement. “Plus [o1] réfléchit longtemps, mieux il performe”, a-t-il dit.

Partagez cet article
article précédent

Fonction publique : les entrées en apprentissage augmentent de 10 % en 2023 – Centre Inffo

article suivant

Économie sociale et solidaire : tout savoir sur le foncier culturel

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles