L’Institut National des Normes et de la Technologie (NIST), l’agence du département du commerce des États-Unis qui développe et teste des technologies pour le gouvernement américain, les entreprises et le public en général, a réédité un banc d’essai conçu pour mesurer comment les attaques malveillantes – en particulier celles qui “empoisonnent” les données d’apprentissage des modèles d’IA – pourraient dégrader les performances d’un système d’IA. Baptisé Dioptra (d’après l’instrument astronomique et topographique classique), cet outil web modulaire et open source, d’abord lancé en 2022, vise à aider les entreprises qui forment des modèles d’IA – et les personnes qui utilisent ces modèles – à évaluer, analyser et suivre les risques de l’IA.
Dioptra peut être utilisé pour établir des références et rechercher des modèles, dit le NIST, ainsi que pour fournir une plateforme commune pour exposer les modèles à des menaces simulées dans un environnement de “red-teaming”. “Tester les effets des attaques adverses sur les modèles d’apprentissage automatique est l’un des objectifs de Dioptra”, a écrit le NIST dans un communiqué de presse. “Le logiciel open source, comme le fait d’avoir un enfant disponible en téléchargement gratuit, pourrait aider la communauté, y compris les agences gouvernementales et les petites et moyennes entreprises, à mener des évaluations pour évaluer les affirmations des développeurs d’IA sur les performances de leurs systèmes”.
“L’Institut de sécurité de l’IA du NIST a également sorti des documents qui décrivent des moyens d’atténuer certains des dangers de l’IA, comme la manière dont elle peut être détournée pour générer de la pornographie non consensuelle.”
Dioptra a été lancé en parallèle à des documents du NIST et de l’Institut de sécurité de l’IA récemment créé par le NIST, qui définissent des moyens d’atténuer certains des dangers de l’IA, comme la manière dont elle peut être utilisée pour générer de la pornographie non consensuelle. Cela fait suite au lancement de l’outil Inspect de l’Institut de sécurité de l’IA du Royaume-Uni, qui vise également à évaluer les capacités des modèles et la sécurité globale des modèles.
Le Royaume-Uni et les États-Unis ont un partenariat en cours pour développer conjointement des tests de modèles d’IA avancés, annoncé lors du Sommet sur la sécurité de l’IA du Royaume-Uni à Bletchley Park en novembre de l’année dernière. Dioptra est également le produit du décret exécutif du président Joe Biden sur l’IA, qui mandate (entre autres choses) que le NIST aide aux tests des systèmes d’IA. Le EO établit également des normes pour la sécurité et la sûreté de l’IA, y compris des exigences pour les entreprises qui développent des modèles (par exemple Apple) pour informer le gouvernement fédéral et partager les résultats de tous les tests de sécurité avant qu’ils ne soient déployés au public.
Comme nous l’avons déjà écrit, l’établissement de références pour l’IA est difficile – sans parler du fait que les modèles d’IA les plus sophistiqués d’aujourd’hui sont des boîtes noires dont l’infrastructure, les données d’apprentissage et d’autres détails clés sont secrets par les entreprises qui les créent. Un rapport publié ce mois-ci par l’Institut Ada Lovelace, un institut de recherche à but non lucratif basé au Royaume-Uni qui étudie l’IA, a révélé que les évaluations à elles seules ne suffisent pas à déterminer la sécurité d’un modèle d’IA dans le monde réel, en partie parce que les politiques actuelles permettent aux fournisseurs d’IA de choisir de manière sélective quelles évaluations effectuer.