Les chercheurs en cybersécurité mécontents des restrictions sur Fable d’Anthropic

Le mardi 24 avril, Anthropic a dévoilé Fable, une version limitée et accessible du modèle Mythos, largement salué pour ses capacités en cybersécurité. Conçu comme une version publique avec des restrictions, Fable vise à empêcher un usage malveillant de cette intelligence artificielle puissante. Toutefois, cette démarche suscite rapidement des critiques auprès de nombreux experts en cybersécurité, qui déplorent la rigidité des garde-fous instaurés. Ces restrictions, selon Valentina “Chompie” Palmiotti, chercheure réputée chez IBM X-Force, empêchent même la lecture d’un simple article de blog, car Fable bloque toute demande pouvant être tangentielles à la cybersécurité ou à la biologie.

Les mesures visant à limiter les risques d’exploitation malveillante de Mythos, lancé en avril dernier, s’inscrivent dans une logique de contrôle strict. Anthropic, dans le cadre de son « Projet Glasswing », avait limité initialement l’accès à Mythos à un cercle restreint d’entreprises et d’organisations, dans le but de renforcer la sécurité des logiciels et infrastructures critiques. Récemment, cette politique a évolué puisque Mythos a été déployé auprès de centaines d’organisations dans 15 pays. Toutefois, malgré ces précautions, de nombreux spécialistes estiment que la censure des usages par Fable reste trop arbitraire, renvoyant à un manque de cohérence dans l’application des restrictions.

Les experts craignent que ces restrictions ne nuisent à la capacité de Fable à être un outil efficace en cybersécurité, tout en étant difficiles à gérer et amenant à des blocages intempestifs.

Par exemple, Matt Suiche, vétéran de la cybersécurité et membre de la startup Tolmo, a expliqué à TechCrunch que demander à Fable de générer du code sécurisé peut être considéré par le modèle comme une demande liée à la cybersécurité, ce qui entraîne une baisse de la qualité ou une impossibilité d’obtenir une réponse précise. Si Fable rencontre une de ses barrières, il se rabat automatiquement sur Claude Opus 4.8, un autre modèle d’Anthropic, voire bloque la requête. La détection de contenu interdit semble principalement basée sur des mots-clés, ce qui rend la gestion des restrictions plus vulnérable à des contournements.

Malgré ces limites, certains professionnels de la sécurité reconnaissent que ces restrictions sont temporaires et qu’elles évolueront avec le temps, notamment grâce à une collaboration accrue entre Anthropic et la communauté de la cybersécurité. Suiche souligne que « mieux vaut restreindre plus au début pour permettre un ajustement progressif », estimant que les garde-fous seront probablement adoucis à mesure que la technologie et la confiance mutuelle progressent. En dehors de l’utilisation directe de Fable, Anthropic invite également les experts à passer par le Cyber Verification Program, qui leur permet de bénéficier d’un accès plus large à Claude et ses fonctionnalités pour des activités de sécurité.

En définitive, l’embargo sur certains usages de Fable semble refléter une volonté d’assurer la sécurité sans pour autant freiner l’innovation, mais la gestion de ces garde-fous soulève encore des questions. La vraie difficulté réside dans la recherche d’un équilibre entre contrôle et fonctionnalité, un enjeu crucial pour l’avenir des IA en cybersécurité. Alors que OpenAI propose également un programme similaire intitulé Trusted Access for Cyber, l’expérimentation de ces outils montre que le chemin reste long avant d’instaurer une confiance totale et une utilisation fluide dans un domaine aussi sensible.

Partagez cet article
article précédent

Plus d’un étudiant sur deux travaille en parallèle des cours : surtout les plus jeunes et ceux en lettres et en sport (moins les étudiants en sciences)

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles