“`html
Des chercheurs en intelligence artificielle (IA) d’OpenAI, Google DeepMind, Anthropic, ainsi qu’une large coalition d’entreprises et d’organisations à but non lucratif, appellent à une enquête plus approfondie sur les techniques de surveillance des soi-disant pensées des modèles de raisonnement de l’IA dans un document de position publié mardi. Une caractéristique clé des modèles de raisonnement de l’IA, tels que l’o3 d’OpenAI et le R1 de DeepSeek, réside dans leurs chaînes de pensée (CoTs) — un processus externalisé par lequel les modèles d’IA traitent les problèmes, similaire à la manière dont les humains utilisent un carnet pour travailler sur une question mathématique difficile. Les modèles de raisonnement constituent une technologie fondamentale pour alimenter les agents d’IA, et les auteurs du document soutiennent que la surveillance des CoTs pourrait être une méthode essentielle pour contrôler ces agents à mesure qu’ils deviennent plus répandus et capables.
« La surveillance des CoT représente un ajout précieux aux mesures de sécurité pour l’IA de pointe, offrant un rare aperçu de la manière dont les agents d’IA prennent des décisions », ont déclaré les chercheurs dans le document de position. « Pourtant, il n’y a aucune garantie que le degré actuel de visibilité persiste. Nous encourageons la communauté de recherche et les développeurs d’IA de pointe à tirer le meilleur parti de la monitorabilité des CoTs et à étudier comment elle peut être préservée. » Le document demande aux principaux développeurs de modèles d’IA d’étudier ce qui rend les CoTs « monitorables », c’est-à-dire quels facteurs peuvent augmenter ou diminuer la transparence sur la manière dont les modèles d’IA arrivent réellement à leurs réponses.
Il est crucial de maintenir une attention sur la recherche entourant la sécurité de l’IA, surtout dans un contexte de concurrence féroce dans l’industrie.
Les auteurs du document soulignent que la surveillance des CoTs pourrait être une méthode clé pour comprendre les modèles de raisonnement de l’IA, mais notent que cette approche pourrait être fragile, mettant en garde contre toute intervention pouvant réduire leur transparence ou leur fiabilité. Les signataires notables du document incluent Mark Chen, responsable de la recherche chez OpenAI, Ilya Sutskever, PDG de Safe Superintelligence, le lauréat du prix Nobel Geoffrey Hinton, Shane Legg, cofondateur de Google DeepMind, Dan Hendrycks, conseiller en sécurité chez xAI, et John Schulman, cofondateur de Thinking Machines. Les premiers auteurs incluent des responsables de l’Institut de Sécurité de l’IA du Royaume-Uni et d’Apollo Research, tandis que d’autres signataires proviennent de METR, Amazon, Meta et UC Berkeley.
Ce document symbolise un moment d’unité parmi de nombreux leaders de l’industrie de l’IA dans une tentative de dynamiser la recherche sur la sécurité de l’IA. Il arrive à un moment où les entreprises technologiques sont engagées dans une compétition féroce, ayant conduit Meta à débaucher des chercheurs de haut niveau d’OpenAI, Google DeepMind et Anthropic avec des offres de plusieurs millions de dollars. Certains des chercheurs les plus recherchés sont ceux qui construisent des agents d’IA et des modèles de raisonnement d’IA.
« Nous sommes à un moment critique, où nous avons cette nouvelle technologie de chaîne de pensée. Cela semble assez utile, mais elle pourrait disparaître dans quelques années si les gens n’y prêtent pas vraiment attention », a déclaré Bowen Baker, chercheur chez OpenAI, dans une interview accordée à TechCrunch. « Publier un document de position comme celui-ci, pour moi, est un mécanisme pour attirer plus de recherches et d’attention sur ce sujet avant que cela ne se produise. » OpenAI a publié un aperçu du premier modèle de raisonnement de l’IA, l’o1, en septembre 2024. Depuis, l’industrie technologique a rapidement publié des concurrents affichant des capacités similaires, certains modèles de Google DeepMind, xAI et Anthropic montrant même des performances plus avancées sur des benchmarks.
Cependant, il reste relativement peu de choses à comprendre sur le fonctionnement des modèles de raisonnement de l’IA. Bien que les laboratoires d’IA aient excellé dans l’amélioration des performances des IA au cours de la dernière année, cela ne s’est pas nécessairement traduit par une meilleure compréhension de la manière dont elles arrivent à leurs réponses. Anthropic s’est imposé comme l’un des leaders de l’industrie en matière d’interprétabilité des modèles d’IA. Plus tôt cette année, le PDG Dario Amodei a annoncé un engagement à ouvrir la « boîte noire » des modèles d’IA d’ici 2027 et à investir davantage dans l’interprétabilité. Il a également appelé OpenAI et Google DeepMind à approfondir leurs recherches sur le sujet. Les recherches préliminaires d’Anthropic ont indiqué que les CoTs pourraient ne pas être une indication pleinement fiable de la façon dont ces modèles arrivent à leurs réponses. En même temps, les chercheurs d’OpenAI ont déclaré que la surveillance des CoTs pourrait un jour être un moyen fiable de suivre l’alignement et la sécurité des modèles d’IA. L’objectif des documents de position comme celui-ci est de signaler et d’attirer plus d’attention sur des domaines de recherche naissants, comme la surveillance des CoTs.
“`