Le 29 septembre 2025, les chercheurs de DeepSeek ont annoncé le lancement d’un nouveau modèle expérimental, baptisé V3.2-exp, qui vise à réduire de manière significative les coûts d’inférence lors des opérations à long contexte. Ce modèle a été dévoilé via un post sur la plateforme Hugging Face, accompagné d’un article académique publié sur GitHub. La caractéristique la plus marquante de ce nouveau modèle est le ‘DeepSeek Sparse Attention’, un système complexe dont les détails sont illustrés dans un diagramme.
Au cœur de ce système se trouve un module appelé « indexeur lightning » qui a pour fonction de prioriser certains extraits de la fenêtre contextuelle. Ensuite, un autre système, désigné comme « système de sélection de tokens à grain fin », choisit des tokens spécifiques au sein de ces extraits pour les charger dans la fenêtre d’attention limitée du module. En combinant ces éléments, les modèles Sparse Attention parviennent à fonctionner sur de longues portions de contexte avec des charges serveur comparativement réduites.
Le nouveau modèle de DeepSeek pourrait offrir des solutions précieuses aux fournisseurs américains pour maîtriser les coûts d’inférence.
Pour les opérations à long contexte, les avantages de ce système sont considérables. Les tests préliminaires réalisés par DeepSeek ont révélé que le coût d’un simple appel API pourrait être réduit de moitié dans des contextes prolongés. Bien que des tests supplémentaires soient nécessaires pour établir une évaluation plus robuste, le fait que le modèle soit à poids ouverts et disponible gratuitement sur Hugging Face pourrait favoriser rapidement des tests par des tiers pour vérifier les affirmations avancées dans l’article.
Le modèle de DeepSeek s’inscrit dans une série de percées récentes visant à résoudre le problème des coûts d’inférence, qui se rapportent essentiellement aux coûts serveurs associés à l’exploitation d’un modèle d’IA pré-entraîné, distinct du coût de son entraînement. Les chercheurs de DeepSeek ont cherché des moyens d’optimiser l’architecture transformer fondamentale, découvrant qu’il existe des améliorations significatives à réaliser.
Basée en Chine, DeepSeek représente une figure singulière dans l’essor de l’IA, notamment pour ceux qui perçoivent la recherche en IA comme une bataille nationaliste entre les États-Unis et la Chine. La société avait provoqué le buzz en début d’année avec son modèle R1, entraîné principalement par apprentissage par renforcement à un coût bien inférieur à celui de ses concurrents américains. Toutefois, ce modèle n’a pas provoqué la révolution en matière d’entraînement en IA que certains avaient anticipée, et la société s’est retirée des feux de l’actualité ces derniers mois. Bien que la nouvelle approche de « sparse attention » ne semble pas destinée à créer le même émoi que le R1, elle pourrait néanmoins fournir aux fournisseurs américains des astuces nécessaires pour maintenir les coûts d’inférence à un niveau bas.