Un laboratoire chinois a lancé un modèle d’IA de ‘raisonnement’ pour rivaliser avec l’o1 d’OpenAI | TechCrunch

Generated with DALL·E 3

Mercredi, DeepSeek, une entreprise de recherche en IA financée par des traders quantitatifs, a dévoilé l’aperçu de DeepSeek-R1. Selon la société, ce modèle de raisonnement est concurrentiel avec l’o1 de la OpenAI. Contrairement à la plupart des modèles, les modèles de raisonnement vérifient efficacement eux-mêmes les faits en passant plus de temps à considérer une question ou une requête. Cela les aide à éviter certains pièges qui font trébucher normalement les modèles. À l’image de l’o1, DeepSeek-R1 raisonne à travers les tâches, planifie à l’avance et effectue une série d’actions qui aident le modèle à aboutir à une réponse. Cela peut prendre du temps. Comme l’o1, en fonction de la complexité de la question, DeepSeek-R1 peut “réfléchir” pendant des dizaines de secondes avant de répondre.

DeepSeek affirme que DeepSeek-R1 (ou plus précisément DeepSeek-R1-Lite-Preview) se comporte au même niveau que le modèle de prévisualisation l’o1 de OpenAI sur deux points de référence populaires en IA, AIME et MATH. AIME utilise d’autres modèles d’IA pour évaluer les performances d’un modèle, tandis que MATH est une collection de problèmes de mots. Cependant, le modèle n’est pas parfait. Certains commentateurs ont souligné que DeepSeek-R1 rencontre des difficultés avec le tic-tac-toe et d’autres problèmes de logique. (L’o1 aussi.) DeepSeek peut également être facilement contourné, c’est-à-dire sollicité de telle manière qu’il ignore les gardes-fous. Un utilisateur a réussi à faire donner par le modèle une recette détaillée de méthamphétamines. De plus, DeepSeek-R1 semble bloquer les requêtes jugées trop politiquement sensibles.

Dans nos tests, le modèle a refusé de répondre aux questions sur le leader chinois Xi Jinping, la place Tiananmen et les implications géopolitiques d’une invasion de Taiwan par la Chine.

Ce comportement est probablement dû à la pression exercée par le gouvernement chinois sur les projets d’IA dans la région. En Chine, les modèles doivent subir une évaluation par le régulateur Internet du pays afin d’assurer que leurs réponses “incarnent les valeurs socialistes fondamentales”. Il est rapporté que le gouvernement a même proposé une liste noire de sources qui ne peuvent pas être utilisées pour former des modèles, ce qui conduit de nombreux systèmes d’IA chinois à refuser de répondre aux sujets susceptibles d’irriter les régulateurs.

L’attention accrue portée aux modèles de raisonnement survient alors que la viabilité des “lois de l’échelle”, des théories de longue date selon lesquelles jeter plus de données et de puissance de calcul sur un modèle augmenterait continuellement ses capacités, est remise en question. Un flot de rapports de presse suggère que les modèles des grands laboratoires d’IA, y compris OpenAI, Google et Anthropic, ne s’améliorent pas aussi spectaculairement qu’auparavant. Cela a conduit à une course aux nouvelles approches, architectures et techniques de développement de l’IA. L’une d’elles est le “test-time compute”, qui sous-tend des modèles comme o1 et DeepSeek-R1. Connue également sous le nom d’inference compute, cette méthode donne essentiellement aux modèles un temps de traitement supplémentaire pour accomplir des tâches.

“Nous assistons à l’émergence d’une nouvelle loi de l’échelle”, a déclaré cette semaine le PDG de Microsoft, Satya Nadella, lors d’une keynote de la conférence Ignite de Microsoft, faisant référence au test-time compute. DeepSeek, qui prévoit d’ouvrir le code source de DeepSeek-R1 et de publier une API, est une entreprise intéressante. Elle est soutenue par High-Flyer Capital Management, un hedge fund quantitatif chinois qui utilise l’IA pour informer ses décisions de trading. L’un des premiers modèles de DeepSeek, un modèle généraliste d’analyse de texte et d’images appelé DeepSeek-V2, a forcé des concurrents comme ByteDance, Baidu et Alibaba à réduire les prix d’utilisation de certains de leurs modèles, voire à rendre d’autres complètement gratuits. High-Flyer construit ses propres clusters de serveurs pour l’entraînement des modèles, le plus récent d’entre eux comportant apparemment 10 000 GPU Nvidia A100 et ayant coûté 1 milliard de yens (environ 138 millions de dollars).

Partagez cet article
article précédent

Plus de six actifs sur dix gênés par le bruit au travail

article suivant

Un conseiller France Travail convoqué après des messages déplacés à une demandeuse d’emploi

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles