Le nouveau modèle IA de DeepSeek semble être l’un des meilleurs challengers ‘open’ à ce jour | TechCrunch

Generated with DALL·E 3

Un laboratoire chinois a créé ce qui semble être l’un des modèles d’intelligence artificielle “open” les plus puissants à ce jour. Le modèle, DeepSeek V3, a été développé par la firme d’intelligence artificielle DeepSeek et a été publié mercredi sous une licence permissive qui permet aux développeurs de le télécharger et de le modifier pour la plupart des applications, y compris celles commerciales. DeepSeek V3 peut gérer une gamme de charges de travail et de tâches basées sur le texte, comme la programmation, la traduction et la rédaction d’essais et de courriels à partir d’une incitation descriptive.

Selon les tests internes de DeepSeek, DeepSeek V3 surpasse à la fois les modèles téléchargeables, “ouverts” et les modèles d’IA “fermés” qui ne peuvent être accessibles qu’à travers une API. Dans un sous-ensemble de compétitions de codage organisées sur Codeforces, une plateforme pour les concours de programmation, DeepSeek surpasse d’autres modèles, notamment le Llama 3.1 405B de Meta, le GPT-4o de OpenAI et le Qwen 2.5 72B d’Alibaba. DeepSeek V3 écrase également la compétition sur Aider Polyglot, un test conçu pour mesurer, entre autres, si un modèle peut réussir à écrire un nouveau code qui s’intègre dans un code existant.

DeepSeek s’appuie sur une méthode d’apprentissage massif et est considérée comme une véritable prouesse, malgré les limitations politiques imposées à ses réponses.

DeepSeek affirmé que DeepSeek V3 a été entraîné sur un ensemble de données de 14,8 billions de tokens. En science des données, les tokens sont utilisés pour représenter des morceaux de données brutes – 1 million de tokens est égal à environ 750 000 mots. Ce n’est pas seulement l’ensemble de formation qui est massif. DeepSeek V3 est énorme en taille : 671 milliards de paramètres, ou 685 milliards sur la plateforme de développement AI Hugging Face. (Les paramètres sont les variables internes que les modèles utilisent pour faire des prédictions ou des décisions.) C’est environ 1,6 fois la taille du Llama 3.1 405B, qui a 405 milliards de paramètres.

Le nombre de paramètres est souvent (mais pas toujours) corrélé avec l’habileté; les modèles avec plus de paramètres ont tendance à surperformer les modèles avec moins de paramètres. Mais les grands modèles nécessitent également un matériel plus puissant pour fonctionner. Une version non optimisée de DeepSeek V3 nécessiterait une banque de GPU haut de gamme pour répondre aux questions à des vitesses raisonnables. Bien qu’il ne soit pas le modèle le plus pratique, DeepSeek V3 est une réalisation à certains égards. DeepSeek a réussi à entraîner le modèle en utilisant un centre de données de Nvidia H800 GPUs en seulement environ deux mois – des GPUs que les entreprises chinoises ont récemment été restreintes par le département du commerce américain à se procurer.

L’entreprise prétend également avoir dépensé seulement 5,5 millions de dollars pour entraîner DeepSeek V3, une fraction du coût de développement de modèles tels que celui de l’OpenAI’s GPT-4. Le hic est que les opinions politiques du modèle sont un peu… biaisées. Demandez à DeepSeek V3 au sujet de la place Tiananmen, par exemple, et il ne répondra pas. DeepSeek, en tant qu’entreprise chinoise, est soumis aux tests de référence de la régulateur Internet de la Chine pour garantir que les réponses de ses modèles “incarnent des valeurs socialistes de base”. De nombreux systèmes chinois d’IA refusent de répondre aux sujets qui pourraient susciter l’ire des régulateurs, comme les spéculations sur le régime de Xi Jinping.

Partagez cet article
article précédent

Travailler “gratuitement” 7 heures par an: des doutes sur l’acceptation sociale et les objectifs

article suivant

Plus des trois quarts des salariés à temps partiel sont des femmes

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles