3 min de lecture

Le nouveau modèle IA de DeepSeek semble être l’un des meilleurs challengers ‘open’ à ce jour | TechCrunch

27 décembre 2024

Generated with DALL·E 3

Un laboratoire chinois a créé ce qui semble être l’un des modèles d’intelligence artificielle “open” les plus puissants à ce jour. Le modèle, DeepSeek V3, a été développé par la firme d’intelligence artificielle DeepSeek et a été publié mercredi sous une licence permissive qui permet aux développeurs de le télécharger et de le modifier pour la plupart des applications, y compris celles commerciales. DeepSeek V3 peut gérer une gamme de charges de travail et de tâches basées sur le texte, comme la programmation, la traduction et la rédaction d’essais et de courriels à partir d’une incitation descriptive.

Selon les tests internes de DeepSeek, DeepSeek V3 surpasse à la fois les modèles téléchargeables, “ouverts” et les modèles d’IA “fermés” qui ne peuvent être accessibles qu’à travers une API. Dans un sous-ensemble de compétitions de codage organisées sur Codeforces, une plateforme pour les concours de programmation, DeepSeek surpasse d’autres modèles, notamment le Llama 3.1 405B de Meta, le GPT-4o de OpenAI et le Qwen 2.5 72B d’Alibaba. DeepSeek V3 écrase également la compétition sur Aider Polyglot, un test conçu pour mesurer, entre autres, si un modèle peut réussir à écrire un nouveau code qui s’intègre dans un code existant.

DeepSeek s’appuie sur une méthode d’apprentissage massif et est considérée comme une véritable prouesse, malgré les limitations politiques imposées à ses réponses.

DeepSeek affirmé que DeepSeek V3 a été entraîné sur un ensemble de données de 14,8 billions de tokens. En science des données, les tokens sont utilisés pour représenter des morceaux de données brutes – 1 million de tokens est égal à environ 750 000 mots. Ce n’est pas seulement l’ensemble de formation qui est massif. DeepSeek V3 est énorme en taille : 671 milliards de paramètres, ou 685 milliards sur la plateforme de développement AI Hugging Face. (Les paramètres sont les variables internes que les modèles utilisent pour faire des prédictions ou des décisions.) C’est environ 1,6 fois la taille du Llama 3.1 405B, qui a 405 milliards de paramètres.

Le nombre de paramètres est souvent (mais pas toujours) corrélé avec l’habileté; les modèles avec plus de paramètres ont tendance à surperformer les modèles avec moins de paramètres. Mais les grands modèles nécessitent également un matériel plus puissant pour fonctionner. Une version non optimisée de DeepSeek V3 nécessiterait une banque de GPU haut de gamme pour répondre aux questions à des vitesses raisonnables. Bien qu’il ne soit pas le modèle le plus pratique, DeepSeek V3 est une réalisation à certains égards. DeepSeek a réussi à entraîner le modèle en utilisant un centre de données de Nvidia H800 GPUs en seulement environ deux mois – des GPUs que les entreprises chinoises ont récemment été restreintes par le département du commerce américain à se procurer.

L’entreprise prétend également avoir dépensé seulement 5,5 millions de dollars pour entraîner DeepSeek V3, une fraction du coût de développement de modèles tels que celui de l’OpenAI’s GPT-4. Le hic est que les opinions politiques du modèle sont un peu… biaisées. Demandez à DeepSeek V3 au sujet de la place Tiananmen, par exemple, et il ne répondra pas. DeepSeek, en tant qu’entreprise chinoise, est soumis aux tests de référence de la régulateur Internet de la Chine pour garantir que les réponses de ses modèles “incarnent des valeurs socialistes de base”. De nombreux systèmes chinois d’IA refusent de répondre aux sujets qui pourraient susciter l’ire des régulateurs, comme les spéculations sur le régime de Xi Jinping.

Source: DeepSeek’s new AI model appears to be one of the best ‘open’ challengers yet

article précédent

Travailler “gratuitement” 7 heures par an: des doutes sur l’acceptation sociale et les objectifs

article suivant

Plus des trois quarts des salariés à temps partiel sont des femmes

Laisser un commentaire Annuler la réponse

Lire plus d'articles

Intelligence artificielle

“Pour le bénéfice de tous, des voix diverses doivent participer à la croissance et à la régulation de l’IA”

19 mars 2024

Jorge Calderon, directeur général de la société basée à San Francisco, Inicio Ventures, est un fervent défenseur…

Illustration of "Pour le bénéfice de tous, des voix diverses doivent participer à la croissance et à la régulation de l'IA"

Lire plus

Intelligence artificielle

Le modèle de raisonnement AI d’OpenAI ‘pense’ parfois en chinois, et personne ne sait vraiment pourquoi | TechCrunch

14 janvier 2025

Un phénomène curieux a été remarqué peu de temps après la sortie par OpenAI de son premier modèle de…

Illustration of Le modèle de raisonnement AI d'OpenAI 'pense' parfois en chinois, et personne ne sait vraiment pourquoi | TechCrunch

Lire plus

Intelligence artificielle

PSA: Vous ne devriez pas télécharger vos images médicales sur les chatbots IA | TechCrunch

20 novembre 2024

Voici un petit rappel avant de commencer votre journée : réfléchissez bien avant de télécharger vos données…

Illustration of PSA: Vous ne devriez pas télécharger vos images médicales sur les chatbots IA | TechCrunch

Lire plus

Intelligence artificielle

Apple a évoqué des améliorations en matière d’IA, y compris le moteur neuronal M4, lors de son événement iPad | TechCrunch

7 mai 2024

Apple n’est pas encore prêt à dévoiler sa stratégie globale en matière d’IA – il réserve cela…

Illustration of Apple a évoqué des améliorations en matière d'IA, y compris le moteur neuronal M4, lors de son événement iPad | TechCrunch

Lire plus

Le nouveau modèle IA de DeepSeek semble être l’un des meilleurs challengers ‘open’ à ce jour | TechCrunch

Travailler “gratuitement” 7 heures par an: des doutes sur l’acceptation sociale et les objectifs

Plus des trois quarts des salariés à temps partiel sont des femmes

Laisser un commentaire Annuler la réponse

Emploi des séniors : cette étude qui montre que les plus âgés ne deviennent pas plus lents (à une condition)

Les modèles d’IA Gemma de Google dépassent les 150 millions de téléchargements

Social planning : comment transformer le planning en un levier d’engagement et de bien-être des salariés ?

Image de marque employeur : pourquoi les offres d’emploi ne suffisent pas ?

L’IA ne va pas vous remplacer… mais elle va booster votre carrière RH

Le nouveau modèle IA de DeepSeek semble être l’un des meilleurs challengers ‘open’ à ce jour | TechCrunch

Partagez cet article

Travailler “gratuitement” 7 heures par an: des doutes sur l’acceptation sociale et les objectifs

Plus des trois quarts des salariés à temps partiel sont des femmes

Laisser un commentaire Annuler la réponse

Lire plus d'articles