MLCommons, un groupe de travail à but non lucratif dédié à la sécurité de l’IA, s’est associé à la plateforme de développement d’IA Hugging Face pour diffuser l’une des plus grandes collections d’enregistrements vocaux du domaine public destinés à la recherche en IA. L’ensemble de données, appelé Unsupervised People’s Speech, contient plus d’un million d’heures d’audio couvrant au moins 89 langues. MLCommons dit avoir été motivé à le créer par le désir de soutenir la R&D dans “divers domaines de la technologie vocale”. “Soutenir une recherche plus large sur le traitement du langage naturel pour des langues autres que l’anglais aide à apporter des technologies de communication à plus de personnes dans le monde”, a écrit l’organisation dans un article de blog jeudi.
“Nous prévoyons plusieurs voies pour que la communauté de recherche continue à se développer et à se développer, en particulier dans les domaines de l’amélioration des modèles de discours en langues à faibles ressources, de la reconnaissance améliorée de la parole à travers différents accents et dialectes, et des applications novatrices en synthèse vocale”. C’est un objectif louable, certes. Mais les ensembles de données d’IA comme Unsupervised People’s Speech peuvent comporter des risques pour les chercheurs qui choisissent de les utiliser. Les données biaisées sont l’un de ces risques. Les enregistrements de Unsupervised People’s Speech proviennent de Archive.org, l’association à but non lucratif sans doute la plus connue pour son outil d’archivage web Wayback Machine.
Mais étant donné que de nombreux contributeurs d’Archive.org sont anglophones – et américains – presque tous les enregistrements de Unsupervised People’s Speech sont en anglais américain, selon le fichier readme sur la page officielle du projet.
Cela signifie que, sans un filtrage approprié, les systèmes d’IA tels que la reconnaissance vocale et les modèles de synthétiseur vocal formés sur Unsupervised People’s Speech pourraient présenter certains des mêmes préjugés. Ils pourraient, par exemple, avoir du mal à transcrire l’anglais parlé par un non-anglophone, ou avoir du mal à générer des voix synthétiques dans des langues autres que l’anglais. Unsupervised People’s Speech pourrait également contenir des enregistrements de personnes qui ne sont pas conscientes que leurs voix sont utilisées à des fins de recherche en intelligence artificielle, y compris pour des applications commerciales.
Alors que MLCommons indique que tous les enregistrements de l’ensemble de données sont du domaine public ou disponibles sous licence Creative Commons, il est possible que des erreurs aient été commises. Selon une analyse du MIT, des centaines d’ensembles de données d’apprentissage d’IA disponibles au public manquent d’informations sur les licences et contiennent des erreurs. Les défenseurs des créateurs, comme Ed Newton-Rex, le PDG de l’association à but non lucratif Fairly Trained, axée sur l’éthique de l’IA, ont fait valoir que les créateurs ne devraient pas être obligés de “se désinscrire” des ensembles de données d’IA en raison de la charge onéreuse que cela impose à ces créateurs.
MLCommons dit qu’il s’engage à mettre à jour, à maintenir et à améliorer la qualité de Unsupervised People’s Speech. Mais compte tenu des failles potentielles, il serait judicieux pour les développeurs de faire preuve de prudence.