DeepSeek prétend que son modèle de ‘raisonnement’ surpasse o1 de OpenAI sur certains benchmarks | TechCrunch

Generated with DALL·E 3

Le laboratoire chinois d’IA DeepSeek a publié une version ouverte de DeepSeek-R1, son soi-disant modèle de raisonnement, qu’il affirme être aussi performant que o1 de OpenAI sur certaines références de l’IA. R1 est disponible sur la plateforme de développement IA Hugging Face sous une licence MIT, ce qui signifie qu’il peut être utilisé commercialement sans restrictions. Selon DeepSeek, R1 bat o1 sur les benchmarks AIME, MATH-500, et SWE-bench Verified. AIME utilise d’autres modèles pour évaluer la performance d’un modèle, tandis que MATH-500 est une collection de problèmes de mots. SWE-bench Verified, quant à lui, se concentre sur les tâches de programmation.

En tant que modèle de raisonnement, R1 vérifie effectivement lui-même les faits, ce qui l’aide à éviter certains des écueils qui font normalement trébucher les modèles. Les modèles de raisonnement prennent un peu plus de temps – généralement de quelques secondes à quelques minutes de plus – pour arriver à des solutions par rapport à un modèle non-raisonnant typique. L’avantage est qu’ils ont tendance à être plus fiables dans des domaines tels que la physique, la science et les mathématiques.

R1 contient 671 milliards de paramètres, a révélé DeepSeek dans un rapport technique. Les paramètres correspondent approximativement aux compétences de résolution de problèmes d’un modèle, et les modèles avec plus de paramètres se comportent généralement mieux que ceux avec moins de paramètres. 671 milliards de paramètres est massif, mais DeepSeek a également publié des versions “distillées” de R1 allant de 1,5 milliards de paramètres à 70 milliards de paramètres. Le plus petit peut fonctionner sur un ordinateur portable. Quant au R1 complet, il nécessite un matériel plus robuste, mais il est disponible via l’API de DeepSeek à des prix de 90% à 95% moins chers que ceux de o1 de OpenAI.

Il y a cependant un inconvénient à R1. Étant un modèle chinois, il est soumis à une vérification par le régulateur Internet de la Chine pour garantir que ses réponses “incarnent les valeurs socialistes centrales”. R1 ne répondra pas aux questions sur la place Tiananmen, par exemple, ni sur l’autonomie de Taiwan.

De nombreux systèmes d’IA chinois, y compris d’autres modèles de raisonnement, refusent de répondre à des sujets qui pourraient attirer les foudres des régulateurs du pays, comme les spéculations sur le régime de Xi Jinping. R1 arrive quelques jours après que l’administration Biden sortante a proposé des règles d’exportation et des restrictions plus sévères sur les technologies de l’IA pour les entreprises chinoises. Les entreprises en Chine étaient déjà empêchées d’acheter des puces IA avancées, mais si les nouvelles règles entrent en vigueur telles quelles, les entreprises seront confrontées à des plafonds plus stricts à la fois sur la technologie des semi-conducteurs et sur les modèles nécessaires pour démarrer des systèmes d’IA sophistiqués.

Dans un document politique la semaine dernière, OpenAI a exhorté le gouvernement américain à soutenir le développement de l’IA américaine, de peur que les modèles chinois ne les égalent ou les dépassent en capacité. Dans une interview avec The Information, le vice-président de la politique d’OpenAI, Chris Lehane, a désigné High Flyer Capital Management, la maison mère de DeepSeek, comme une organisation particulièrement préoccupante. Jusqu’à présent, au moins trois laboratoires chinois – DeepSeek, Alibaba et Kimi, qui est détenu par la licorne chinoise Moonshot AI – ont produit des modèles qu’ils prétendent être à la hauteur de o1. (Il faut noter que DeepSeek a été le premier – il a annoncé un aperçu de R1 fin novembre.) Dans un article sur X, Dean Ball, un chercheur en IA à l’Université George Mason, a déclaré que la tendance suggère que les laboratoires d’IA chinois continueront à être des “suiveurs rapides”.

Partagez cet article
article précédent

Le président Trump abroge le décret exécutif de Biden sur l’IA | TechCrunch

article suivant

“Avec effet immédiat”: un des premiers décrets de Trump interdit le télétravail aux agents fédéraux

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles