DeepSeek a fait une percée retentissante. Le laboratoire chinois d’IA DeepSeek a fait son entrée cette semaine en plein cœur de la conscience populaire, alors que son application de chatbot se hissait au sommet des classements de l’App Store d’Apple (ainsi que de Google Play). Les modèles d’IA de DeepSeek, qui ont été formés en utilisant des techniques économes en calcul, ont amené les analystes de Wall Street – et les technologues – à se demander si les États-Unis peuvent maintenir leur avance dans la course à l’IA et si la demande pour les puces d’IA durera. Mais d’où provient exactement DeepSeek, et comment a-t-elle acquis une renommée internationale si rapidement ?
DeepSeek a ses origines dans le trading. DeepSeek est soutenue par High-Flyer Capital Management, un fonds spéculatif quantitatif chinois qui utilise l’IA pour éclairer ses décisions de trading. Liang Wenfeng, un passionné d’IA, a cofondé High-Flyer en 2015. Wenfeng, qui aurait commencé à s’intéresser au trading alors qu’il était étudiant à l’université de Zhejiang, a lancé High-Flyer Capital Management comme un fonds spéculatif en 2019 concentré sur le développement et le déploiement d’algorithmes d’IA. En 2023, High-Flyer a lancé DeepSeek comme un laboratoire dédié à la recherche d’outils d’IA indépendants de ses activités financières. Avec High-Flyer comme l’un de ses investisseurs, le laboratoire s’est séparé pour devenir sa propre entreprise, également nommée DeepSeek.
Malgré les restrictions commerciales, DeepSeek a su imposer sa présence sur le marché international grâce à des modèles informatiques innovants et efficaces.
Depuis le premier jour, DeepSeek a construit ses propres grappes de centres de données pour l’entraînement de modèles. Mais comme d’autres entreprises d’IA en Chine, DeepSeek a été affectée par les interdictions d’exportation de matériel des États-Unis. Pour former l’un de ses modèles les plus récents, l’entreprise a été contrainte d’utiliser les puces Nvidia H800, une version moins puissante d’une puce, le H100, disponible pour les entreprises américaines. L’équipe technique de DeepSeek est réputée pour être jeune. La société recrute agressivement des chercheurs en doctorat en IA dans les meilleures universités chinoises. DeepSeek embauche également des personnes sans aucune formation en informatique pour aider sa technologie à mieux comprendre un large éventail de sujets, selon le New York Times.
DeepSeek a dévoilé son premier ensemble de modèles – DeepSeek Coder, DeepSeek LLM, et DeepSeek Chat – en novembre 2023. Mais ce n’est que l’année suivante, lorsque la jeune entreprise a sorti sa nouvelle génération de modèles de la famille DeepSeek-V2, que l’industrie de l’IA a commencé à prendre note. DeepSeek V2, un système généraliste d’analyse de textes et d’images, a obtenu de bons résultats dans divers benchmarks d’IA – et était beaucoup moins cher à exploiter que les modèles comparables à l’époque. Cela a obligé la concurrence domestique de DeepSeek, notamment ByteDance et Alibaba, à réduire les prix d’utilisation de certains de leurs modèles et à en rendre d’autres entièrement gratuits.
Si DeepSeek a un modèle commercial, ce n’est pas clair ce que c’est, exactement. La société fixe le prix de ses produits et services bien en dessous de la valeur du marché – et en offre d’autres gratuitement. Selon DeepSeek, des percées en matière d’efficacité ont permis de maintenir une compétitivité extrême en termes de coûts. Certains experts contestent cependant les chiffres fournis par l’entreprise. Quoi qu’il en soit, les développeurs ont adopté les modèles de DeepSeek, qui ne sont pas open source au sens commun du terme mais sont disponibles sous des licences permissives qui permettent leur utilisation commerciale.