Plus tôt cette semaine, DeepSeek, un laboratoire d’IA chinois bien financé, a publié un modèle d’IA “ouvert” qui surpassait de nombreux rivaux sur des repères populaires. Le modèle, DeepSeek V3, est volumineux mais efficace, gérant des tâches basées sur le texte comme la programmation et la rédaction d’essais avec aisance. Il semble aussi penser qu’il est ChatGPT. Des publications sur X – et les tests de TechCrunch – montrent que DeepSeek V3 s’identifie comme ChatGPT, la plateforme de chatbot propulsée par l’IA d’OpenAI. Invité à donner des précisions, DeepSeek V3 insiste sur le fait qu’il est une version du modèle GPT-4 d’OpenAI sorti en 2023.
En reproduisant ceci à partir d’aujourd’hui, sur 8 générations, DeepSeek V3 prétend être ChatGPT (v4) 5 fois, alors qu’il ne prétend être DeepSeek V3 que 3 fois. Cela donne une idée de la distribution de leurs données d’entraînement. Si vous posez une question à DeepSeek V3 à propos de l’API de DeepSeek, il vous donnera des instructions sur comment utiliser l’API d’OpenAI. DeepSeek V3 raconte même certaines des mêmes blagues que GPT-4 – jusqu’aux chutes.
Plus problématique encore est la possibilité que DeepSeek V3, en absorbant et en itérant sans critique les réponses de GPT-4, pourrait exacerber certains des biais et des erreurs du modèle.
Alors, que se passe-t-il? Les modèles comme ChatGPT et DeepSeek V3 sont des systèmes statistiques. Entraînés sur des milliards d’exemples, ils apprennent des modèles dans ces exemples pour faire des prédictions – comme la façon dont “à qui” dans un courriel précède généralement “cela peut concerner”. DeepSeek n’a pas révélé grand-chose sur l’origine des données d’entraînement de DeepSeek V3. Mais il ne manque pas d’ensembles de données publics contenant du texte généré par GPT-4 via ChatGPT. Si DeepSeek V3 a été formé sur ceux-ci, le modèle pourrait avoir mémorisé certaines des réponses de GPT-4 et les régurgiter maintenant mot pour mot.
“Manifestement, le modèle voit des réponses brutes de ChatGPT à un moment donné, mais on ne sait pas où”, a déclaré Mike Cook, chercheur à King’s College London spécialisé en IA, à TechCrunch. “Cela pourrait être ‘accidentel’… mais malheureusement, nous avons vu des cas de personnes entraînant directement leurs modèles sur les sorties d’autres modèles pour essayer de profiter de leurs connaissances.”