Malgré la demande croissante de sécurité et de responsabilité en matière d’IA, les tests et les normes actuels peuvent être insuffisants, selon un nouveau rapport. Les modèles d’IA génératifs, c’est-à-dire les modèles capables d’analyser et de produire du texte, des images, de la musique, des vidéos, etc., font l’objet d’un examen accru en raison de leur tendance à faire des erreurs et à se comporter de manière généralement imprévisible. A présent, des organisations allant des agences du secteur public aux grandes entreprises technologiques proposent de nouvelles normes pour tester la sécurité de ces modèles. Vers la fin de l’année dernière, la start-up Scale AI a créé un laboratoire dédié à l’évaluation de la conformité des modèles aux directives de sécurité. Ce mois-ci, le NIST et l’Institut britannique de sécurité de l’IA ont publié des outils conçus pour évaluer les risques des modèles. Cependant, ces tests et méthodes d’exploration des modèles peuvent être insuffisants.
L’Ada Lovelace Institute (ALI), une organisation britannique à but non lucratif de recherche en IA, a mené une étude qui a interrogé des experts de laboratoires universitaires, de la société civile et de la production de modèles, ainsi que des audits de recherches récentes sur les évaluations de la sécurité de l’IA. Les co-auteurs ont constaté que si les évaluations actuelles peuvent être utiles, elles ne sont pas exhaustives, peuvent facilement être manipulées et ne donnent pas nécessairement une indication de la manière dont les modèles se comporteront dans des situations réelles. “Que nous utilisions un smartphone, un médicament sur ordonnance ou une voiture, nous nous attendons à ce que les produits que nous utilisons soient sûrs et fiables ; dans ces secteurs, les produits sont rigoureusement testés pour garantir leur sécurité avant leur mise en œuvre”, a déclaré Elliot Jones, chercheur senior à l’ALI et co-auteur du rapport, à TechCrunch. “Notre recherche visait à examiner les limitations des approches actuelles de l’évaluation de la sécurité de l’IA, à évaluer comment les évaluations sont actuellement utilisées et à explorer leur utilisation en tant qu’outil pour les décideurs et les régulateurs”.
“Les évaluations peuvent servir à identifier les risques potentiels, mais elles ne peuvent garantir qu’un modèle est sûr, encore moins « parfaitement sûr ». Nombre de nos interviewés étaient d’accord pour dire que les évaluations ne peuvent prouver qu’un modèle est sûr et ne peuvent qu’indiquer qu’un modèle n’est pas sûr.”
Les co-auteurs de l’étude ont d’abord examiné la littérature universitaire pour établir un aperçu des dommages et des risques que les modèles présentent aujourd’hui, ainsi que l’état des évaluations actuelles des modèles d’IA. Ils ont ensuite interrogé 16 experts, dont quatre employés de sociétés technologiques non nommées qui développent des systèmes d’IA génératifs. L’étude a constaté un désaccord marqué au sein de l’industrie de l’IA sur le meilleur ensemble de méthodes et de taxonomies pour évaluer les modèles. Certaines évaluations ne testaient que la manière dont les modèles se conformaient aux normes en laboratoire, et non l’impact qu’ils pourraient avoir sur les utilisateurs réels. D’autres se sont appuyés sur des tests développés à des fins de recherche, sans évaluer les modèles de production – mais les vendeurs insistaient pour les utiliser en production.
L’étude de l’ALI a également révélé des problèmes avec le “red teaming”, la pratique consistant à charger des individus ou des groupes de “attaquer” un modèle pour identifier les vulnérabilités et les défauts. Un certain nombre d’entreprises utilisent le “red teaming” pour évaluer les modèles, y compris les start-ups d’IA OpenAI et Anthropic, mais il existe peu de normes acceptées pour le “red teaming”, ce qui rend difficile l’évaluation de l’efficacité d’un effort donné.
Les pressions pour publier les modèles plus rapidement et la réticence à mener des tests susceptibles de soulever des problèmes avant une mise en circulation sont les principales raisons pour lesquelles les évaluations d’IA ne se sont pas améliorées. “Une personne avec qui nous avons parlé travaillait pour une entreprise qui développe des modèles de base, et elle sentait qu’il y avait plus de pression dans les entreprises pour publier les modèles rapidement, ce qui rend plus difficile de résister et de prendre au sérieux la réalisation des évaluations”, a déclaré M. Jones. “Les principaux laboratoires d’IA publient des modèles à une vitesse qui dépasse leur capacité, ou celle de la société, à garantir qu’ils sont sûrs et fiables”.