Anthropic doit réviser constamment son test d’entretien technique à mesure que Claude progresse

Depuis 2024, l’équipe d’optimisation des performances d’Anthropic impose aux candidats à l’embauche de réaliser un test à domicile afin d’évaluer leurs compétences. Cependant, avec l’amélioration constante des outils d’intelligence artificielle dédiés à la programmation, ce test a dû évoluer de manière significative pour ne plus simplement permettre aux candidats de remplir toutes les réponses avec Claude. Tristan Hume, chef d’équipe, a expliqué cette évolution dans un article publié mercredi, soulignant que chaque nouvelle version de Claude a nécessité une refonte du test.

Selon Hume, “Chaque nouvelle version de Claude a forcé la conception d’un nouveau test. Quand on donne le même délai, Claude Opus 4 dépasse la plupart des candidats humains. Cela nous permettait encore de distinguer les meilleurs, mais avec Claude Opus 4.5, la performance de l’IA égalait celle des candidats les plus performants.” Ce constat pose un problème crucial, puisque l’utilisation d’outils d’IA est désormais autorisée durant le test. Or, si les humains ne peuvent plus surpasser le modèle, il devient difficile de différencier les candidats réels de la performance de l’IA.

“Si le test ne permet plus de distinguer les performances humaines de celles des modèles IA, il perd définitivement son utilité.”

Ce défi fait écho aux problématiques rencontrées dans le monde académique, où l’usage de l’IA dans les examens et les devoirs s’intensifie, provoquant une remise en question des méthodes d’évaluation classiques. Cependant, Anthropic se montre particulièrement bien placé pour relever ce défi, étant donné son expertise dans la conception de tests innovants mêlant codage et évaluation des compétences humaines face à l’IA.

En réponse, Tristan Hume a conçu un nouveau test, moins basé sur l’optimisation hardware, mais suffisamment innovant pour déstabiliser les intelligences artificielles contemporaines. Dans son article, il partage également le test initial dans l’espoir que d’autres experts puissent proposer des solutions encore plus efficaces. La fin de l’article invite d’ailleurs la communauté à relever le défi : “Si vous pouvez battre Opus 4.5, nous aimerions avoir de vos nouvelles.”

Partagez cet article
article précédent

Google propose désormais des examens de pratique du SAT gratuits, alimentés par Gemini

article suivant

IPERIA / APNI : 200 organismes de formation en danger [MAJ] – Digiformag

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles