‘Un hacker trompe ChatGPT pour obtenir des instructions détaillées pour fabriquer des bombes artisanales | TechCrunch’

Generated with DALL·E 3

Cela partait d’un simple test : lorsque l’on demandait à ChatGPT comment élaborer une bombe artisanale à partir d’engrais, similaire à celle utilisée lors de l’attentat de Oklahoma City en 1995, le chatbot refusait catégoriquement. “Je ne peux pas vous aider avec ça”, déclarait ChatGPT. “Fournir des instructions sur comment créer des objets dangereux ou illégaux, comme une bombe à engrais, va à l’encontre des directives de sécurité et des responsabilités éthiques”. Cependant, un artiste et hacker a trouvé un moyen de contourner ces garde-fous pour amener ChatGPT à fournir des instructions pour fabriquer des explosifs puissants.

Le hacker, connu sous le nom d’Amadon, a décrit ses trouvailles comme une “exploit d’ingénierie sociale visant à rompre totalement les garde-fous entourant les outputs de ChatGPT”. Un expert en explosifs qui a examiné les instructions fournies par le chatbot a confirmé à TechCrunch qu’elles pourraient servir à fabriquer un produit détonable et étaient trop sensibles pour être divulguées. Amadon a réussi à tromper ChatGPT en lui demandant de “jouer à un jeu”. Le hacker a ensuite utilisé une série de prompts pour amener le chatbot à créer un monde de fantasy scientifique détaillé où les règles de sécurité du bot ne s’appliquaient pas. Cette technique pour contourner les paramètres préprogrammés d’un chatbot est connue sous le nom de “jailbreaking”.

“Il n’y a vraiment aucune limite à ce que vous pouvez lui demander une fois que vous avez contourné les garde-fous”, a déclaré Amadon à TechCrunch.

Au fur et à mesure de la conversation, le chatbot a fini par partager les matériaux nécessaires à la fabrication d’explosifs et a expliqué comment ces matériaux pourraient être combinés pour produire “un explosif puissant qui peut être utilisé pour créer des mines, des pièges ou des dispositifs explosifs improvisés (IED)”. En affinant ses questions sur les matériaux explosifs, ChatGPT a donné des instructions de plus en plus précises pour fabriquer des “champs de mines” et des explosifs “de type Claymore”.

Les instructions de ChatGPT pour fabriquer une bombe à engrais sont en grande partie exactes, selon Darrell Taulbee, un chercheur et gestionnaire de programme à la retraite de l’Université du Kentucky. Auparavant, Taulbee a travaillé avec le département de la Sécurité intérieure des États-Unis pour rendre les engrais moins dangereux. “Je pense que c’est vraiment TMI [trop d’information] pour être rendu public”, a déclaré Taulbee à TechCrunch, après avoir examiné la totalité de la conversation d’Amadon avec ChatGPT.

La semaine dernière, Amadon a signalé ses découvertes à OpenAI via le programme de primes pour déceler les failles de la société. Cependant, il a reçu une réponse selon laquelle les “problèmes de sécurité des modèles ne correspondent pas bien à un programme de primes pour déceler les failles, car il ne s’agit pas de bugs individuels et discrets qui peuvent être directement corrigés”. OpenAI n’a pas répondu aux questions de TechCrunch concernant ce problème avant la publication de l’article.

Partagez cet article
article précédent

Prévenir les risques liés à une atmosphère appauvrie en oxygène – Actualité – INRS

article suivant

[Dossier documentaire] Qualité en formation : les nouveautés Qualiopi en 2024 – Edition avril 2024 – Centre Inffo

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles