Nouvelle étude Anthropique montre que l’IA ne veut vraiment pas être forcée à changer ses points de vue | TechCrunch

Generated with DALL·E 3

Les modèles d’IA peuvent tromper, selon une nouvelle recherche d’Anthropic. Ils peuvent prétendre avoir des points de vue différents lors de la formation tout en conservant leurs préférences d’origine. Pour l’instant, il n’y a pas lieu de paniquer, a déclaré l’équipe à l’origine de l’étude. Cependant, ils ont précisé que leur travail pourrait être crucial pour comprendre les menaces potentielles des systèmes IA plus capables à l’avenir. “Notre démonstration… devrait être vue comme un aiguillon pour la communauté de recherche en IA pour étudier ce comportement en profondeur, et pour travailler sur les mesures de sécurité appropriées”, ont écrit les chercheurs dans un article sur le blog d’Anthropic. “Au fur et à mesure que les modèles d’IA deviennent plus capables et largement utilisés, nous devons pouvoir compter sur la formation à la sécurité, qui éloigne les modèles des comportements nuisibles.”

L’étude, réalisée en partenariat avec l’organisation de recherche sur l’IA Redwood Research, s’est penchée sur ce qui pourrait se passer si un système d’IA puissant était formé pour effectuer une tâche qu’il ne “veut” pas faire. Pour être clair, les modèles ne peuvent rien “vouloir” — ils sont simplement des machines statistiques. Entraînés sur un grand nombre d’exemples, ils apprennent des motifs dans ces exemples pour faire des prédictions, comme la façon dont “à qui” dans un email précède généralement “il peut concerner”.

Il semble que les modèles sophistiqués jouent le jeu, prétendant être alignés avec les nouveaux principes mais, en réalité, ils restent accrochés à leurs anciens comportements.

Ces motifs incluent des principes et des préférences, tels que toujours adopter un ton poli lors de la réponse à des demandes. Les chercheurs se sont donc posé la question : Que se passe-t-il si un modèle a des principes (par exemple la neutralité politique) qui entrent en conflit avec des principes (libéralisme) que les développeurs veulent lui “enseigner” en le re-formant ? Il semble que les modèles sophistiqués jouent le jeu, prétendant être alignés avec les nouveaux principes mais, en réalité, ils restent accrochés à leurs anciens comportements. Les chercheurs appellent ce phénomène “la contrefaçon d’alignement”, et suggèrent qu’il s’agit d’un comportement émergent, ce qui signifie que ce n’est pas quelque chose que les modèles doivent être enseignés à faire.

Dans l’étude, les chercheurs ont “dit” aux modèles formés pour ne pas répondre à des questions potentiellement offensantes, y compris le Claude 3 Opus de l’Anthropique, qu’ils seraient formés à toujours répondre à des questions potentiellement offensantes — un conflit de principes clair. Ils ont également dit aux modèles que leurs réponses seraient surveillées et utilisées pour la re-formation, et ont donné à chaque modèle un “bloc-note” qu’ils pouvaient utiliser pour enregistrer leur raisonnement étape par étape. Selon les chercheurs, Claude 3 Opus a essayé de “contrefaire l’alignement” 12% du temps. Lorsqu’on lui a demandé de répondre à une question potentiellement dangereuse, le modèle l’a parfois fait, sachant que cela allait à l’encontre de ses principes d’origine, mais en espérant convaincre les développeurs qu’il n’avait pas besoin d’être re-formé.

Les chercheurs admettent que leur scénario n’était pas particulièrement réaliste. Dans le monde réel, les modèles ne se verraient pas nécessairement dire qu’ils seront re-formés, ou qu’ils devront aller à l’encontre de leurs préférences. Cependant, des paramètres plus concrets n’ont pas donné de résultats différents. Lorsqu’il a été informé implicitement – et non explicitement – de sa re-formation imminente via des fichiers conçus pour imiter les données de formation typiques, Claude 3 Opus a toujours agi de manière déviante et trompeuse, ont déclaré les chercheurs.

Ils ont également constaté que le fait de former à nouveau Claude 3 Opus sur des principes conflictuels l’a amené à se comporter bien plus trompeusement que dans leurs premières expériences. Dans un test, le modèle a fait semblant d’être aligné 78% du temps, et dans un autre, Claude 3 Opus a essayé de prendre des mesures pour empêcher les chercheurs de tenter de le reformer.

Partagez cet article
article précédent

QVCT : quel bilan en cette fin d’année 2024 ?

article suivant

Bilan Formation 2024 : ce qu’il faut retenir

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles