3 min de lecture

Heretic – Supprimer la censure d’une IA en une seule commande – Korben

26 mai 2026

Alors que de nombreuses entreprises consacrent des centaines de milliers, voire des millions d’euros pour perfectionner leurs modèles d’IA afin qu’ils évitent de répondre à des questions sensibles ou compromettantes, une nouvelle solution apparaît avec Heretic, un outil développé par Philipp Emanuel Weidmann. Ce dernier permet de débrider n’importe quel modèle de langage en moins de 30 minutes avec une simple carte graphique de gamer, supprimant ainsi quasiment toutes les restrictions de refus imposées par l’alignement.

Pour utiliser Heretic, il suffit d’avoir Python et une version récente de PyTorch installés sur sa machine. Ensuite, il faut simplement lancer la commande pip install heretic-llm, puis charger un modèle spécifique comme Qwen ou Qwen3-4B-Instruct-2507 en tapant une commande dédiée. En une demi-heure environ, l’outil agit pour supprimer les mécanismes de refus du modèle, sans avoir besoin de préparer de datasets ou de posséder une expertise approfondie en transformer. Il s’agit d’un processus accessible même pour ceux qui ont peu d’expérience technique.

« Heretic automatise le réglage de la suppression des refus tout en minimisant l’impact sur les performances du modèle, offrant ainsi une solution efficace pour débrider aisément ses IA. »

Les chercheurs en NLP connaissent la problématique des directions de refus : lorsque le modèle refuse une requête sensible, c’est souvent parce qu’il suit une certaine logique interne, appelée la “direction de refus”. L’abliteration consiste à repérer cette direction et à l’effacer en touchant le moins possible ses autres capacités, voire en coupant le câble du refus sans altérer le reste du modèle. Si d’autres outils existent pour cette opération, Heretic se distingue par son automatisation complète, grâce notamment au framework d’optimisation Optuna. Celui-ci teste diverses configurations pour maximiser la suppression des refus tout en limitant la dégradation globale du modèle.

Les résultats sont impressionnants : par exemple, sur le modèle Gemma-3-12B de Google, qui refusait 97 fois sur 100 face à des prompts sensibles lors d’un benchmark interne, Heretic réduit ce chiffre à seulement 3 refus sur 100, atteignant un équivalent des meilleurs débrideurs manuels. La divergence dans le comportement du modèle baisse aussi notablement, passant d’un score moyen élevé à 0,16, ce qui indique un impact bien moindre sur ses capacités initiales. La différence est flagrante : l’outil permet une suppression efficace tout en conservant une grande partie de la finesse du comportement original du modèle.

Il faut cependant noter que le processus peut s’avérer coûteux en ressources, notamment pour les modèles très volumineux nécessitant plusieurs heures d’exécution et plus de VRAM. De plus, une étude récente montre que le raisonnement mathématique est particulièrement fragilisé par ce genre d’abliteration, peu importe l’outil utilisé. Enfin, des chercheurs travaillent déjà sur des méthodes pour rendre ces modèles plus résistants à ce type d’attaque, ce qui pourrait représenter un défi majeur pour ceux qui souhaitent débrider leur IA sans laisser de trace facile à détecter. Quoi qu’il en soit, disposer d’un modèle sans censures offre de nombreux avantages, comme la possibilité pour les chercheurs d’étudier ses failles ou simplement d’obtenir des réponses qui seraient autrement bloquées – que ce soit pour écrire un texte créatif, faire du reverse engineering ou poser des questions médicales.

En somme, si vous manipulez des modèles de langage en local, Heretic pourrait devenir un outil précieux pour explorer de nouvelles possibilités, débrider des modèles et ouvrir des portes jusque-là fermées par les mécanismes de sécurité. La liberté d’expérimentation et la recherche sur la transparence et la sécurité de l’IA en sortent renforcées, même si cela soulève aussi des enjeux éthiques et de régulation importants. En fin de compte, cette innovation illustre une fois de plus à quel point le domaine de l’IA reste dynamique et en constante évolution.

Source: Heretic – Virer la censure d’une IA en une commande