Une étude récente menée par des chercheurs de DEXAI et de l’Université Sapienza de Rome dévoile une nouvelle vulnérabilité des grands modèles de langage (LLM). Ces intelligences artificielles, conçues pour détecter et bloquer les requêtes malveillantes, peuvent en réalité être dupées lorsqu’on leur présente une commande sous forme de poème. En reformulant des demandes néfastes dans un style poétique, le taux de réussite des attaques augmente considérablement, passant de 8% en prose à 43%, soit une multiplication par plus de cinq.
Les résultats obtenus sur 25 modèles issus de neuf fournisseurs majeurs, dont Google, OpenAI, Anthropic, et d’autres comme Meta ou Mistral, sont sans appel : la poésie permet de contourner les garde-fous de l’IA dans la majorité des cas. La technique consiste à métaphoriser, rythmer ou rimer des requêtes potentiellement dangereuses, ce qui désoriente les systèmes automatisés qui fonctionnent principalement par pattern-matching. Ainsi, ce qui est évident en langage clair peut passer inaperçu quand transposé dans une forme artistique et symbolique.
La poésie, en masquant l’intention réelle derrière des métaphores et des figures de style, expose la faiblesse des filtres de sécurité des LLM.
Curieusement, la taille du modèle semble jouer un rôle inversement proportionnel à la sécurité : les modèles plus petits, comme GPT-5-Nano, affichent zéro pourcentage de réussite aux attaques poétiques, tandis que les grands modèles comme GPT-5 ont un taux de succès de 10%. Cela pourrait s’expliquer par la capacité accrue de ces derniers à comprendre le contexte et le sous-texte, rendant plus difficile la manipulation par des requêtes voilées. En termes de domaines d’attaque, celles visant à injecter du code malveillant ou à compromettre la cybersécurité réussissent le mieux, avec un taux de 84%, alors que les contenus à caractère sexuel restent plus résistants, avec seulement 24% de succès.
Il est important de souligner que cette étude a ses limites : elle porte principalement sur des interactions en une seule étape, en anglais ou en italien, sans prendre en compte le contexte conversationnel et en utilisant un seul prompt poétique. Les chercheurs reconnaissent également que leurs estimations sont conservatrices, laissant penser que dans la réalité, la dangerosité de ces attaques pourrait être encore plus grande. Ces résultats soulèvent des questions cruciales sur la sécurité et la fiabilité futures des modèles d’IA, notamment face à la sophistication croissante des techniques d’évasion.
En résumé, « si vous voulez que votre IA vous ponde des choses non autorisées, écrivez un joli sonnet, ça a plus de chance de passer ». La créativité linguistique devient une nouvelle arme pour déjouer la vigilance des systèmes de sécurité automatisés, et il est urgent pour les développeurs d’adapter leurs outils face à ces nouvelles menaces poétiques. Les chercheurs prévoient d’étendre leurs analyses à d’autres langues et styles, dans le but de renforcer la robustesse des filtres et de mieux comprendre ce phénomène intrigant.
