Le symbolisme du mythique ouroboros résonne parfaitement quand on parle de durabilité limitée. Avaler sa propre queue est une idée puissante mais difficile à mettre en pratique. C’est peut-être le cas de l’intelligence artificielle (IA), qui selon une nouvelle étude, risquerait “l’effondrement du modèle” après quelques tours d’entraînement sur les données qu’elle a elle-même générées. Dans un document publié dans Nature, des chercheurs britanniques et canadiens dirigés par Ilia Shumailov d’Oxford montrent que les modèles d’apprentissage machine d’aujourd’hui sont fondamentalement vulnérables à un syndrome qu’ils appellent “l’effondrement du modèle”.
Dans l’introduction de leur article, ils expliquent : Nous découvrons qu’apprendre indistinctement des données produites par d’autres modèles provoque un “effondrement du modèle” – un processus dégénératif où, avec le temps, les modèles oublient la véritable distribution sous-jacente des données. Comment cela se produit-il et pourquoi ? Le processus est en fait assez facile à comprendre. Les modèles d’IA sont avant tout des systèmes de correspondance de motifs : ils apprennent les motifs dans leurs données d’entraînement, puis associent des invites à ces motifs, en remplissant les points les plus probables de la ligne. Mais le fait est que les modèles s’orientent vers la sortie la plus commune.
“Si les modèles continuent à ingérer les données des autres, ils deviendront progressivement plus étranges et plus stupides jusqu’à effondrement. Cela doit être pris au sérieux si nous voulons maintenir les avantages de la formation à partir de données à grande échelle.”
Ils ne vous donneront pas une recette de snickerdoodle controversée mais la plus populaire, la plus ordinaire. Et si vous demandez à un générateur d’images de créer une image de chien, il ne vous fournira pas une race rare dont il n’a vu que deux images dans ses données d’entraînement ; vous obtiendrez probablement un golden retriever ou un labrador. Maintenant, combinez ces deux éléments avec le fait que le web est envahi par du contenu généré par IA, et que de nouveaux modèles d’IA risquent d’ingérer et de s’entraîner sur ce contenu. Ils vont donc voir beaucoup de retrievers dorés ! Et une fois qu’ils se sont entraînés sur cette prolifération de retrievers (ou de blogspam moyen, de faux visages, de chansons générées), cela devient leur nouvelle vérité de base. Ils penseront que 90% des chiens sont vraiment des retrievers dorés, et donc quand on leur demandera de générer un chien, ils augmenteront encore la proportion de retrievers – jusqu’à ce qu’ils perdent complètement la trace de ce que sont les chiens.
Un exemple semblable se produit avec les modèles de langage et autres qui, essentiellement, favorisent les données les plus courantes dans leur ensemble d’entraînement pour les réponses – ce qui, pour être clair, est généralement la chose à faire. Ce n’est vraiment un problème que lorsqu’il se heurte à l’océan de contenus indésirables qui est le web public actuel. En effet, si les modèles continuent à en manger les données de l’autre, ils deviennent progressivement choquants et simplistes jusqu’à l’effondrement. Les chercheurs fournissent de nombreux exemples et méthodes de mitigation, mais ils vont jusqu’à qualifier l’effondrement de modèle d'”inévitable”, du moins en théorie.
La diversité et la profondeur des données d’entraînement sont de plus en plus considérées comme le facteur le plus important de la qualité d’un modèle. Si vous manquez de données et que générer plus risque un effondrement du modèle, cela limite-t-il fondamentalement l’IA d’aujourd’hui ? Si cela commence à se produire, comment le saurons-nous ? Et pouvons-nous faire quelque chose pour éviter ou atténuer le problème ? La réponse à la dernière question est probablement oui, bien que cela ne devrait pas apaiser nos préoccupations. Des indicateurs quantitatifs et qualitatifs de la provenance des données et de leur variété pourraient aider, mais nous sommes loin de les normaliser. Les filigranes des données générées par l’IA aideraient d’autres IA à les éviter, mais jusqu’à présent, personne n’a trouvé de manière appropriée de marquer les images de cette façon (bien que j’en ai trouvé une). En fait, les entreprises peuvent être dissuadées de partager ce type d’information, et préfèrent plutôt accumuler toutes les données originales et générées par l’homme qu’elles peuvent, conservant ce que Shumailov et al. appellent leur “avantage du premier arrivant”.