La start-up d’IA Mistral a lancé une nouvelle API pour la modération de contenu. Cette API, qui est la même que celle qui alimente la modération sur la plateforme de chatbot Le Chat de Mistral, peut être adaptée à des applications spécifiques et à des normes de sécurité, selon Mistral. Il est alimenté par un modèle finement réglé (Ministral 8B) formé pour classer le texte dans une gamme de langues, y compris l’anglais, le français et l’allemand, en une des neuf catégories suivantes : sexuel, haine et discrimination, violence et menaces, contenu dangereux et criminel, auto-mutilation, santé, financier, loi et informations personnellement identifiables. L’API de modération peut être appliquée à du texte brut ou conversationnel, selon Mistral.
“Au cours des derniers mois, nous avons observé un enthousiasme croissant dans l’industrie et la communauté de recherche pour les nouveaux systèmes de modération basés sur l’IA, qui peuvent aider à rendre la modération plus évolutive et robuste dans toutes les applications”, a écrit Mistral dans un billet de blog. “Notre classificateur de modération de contenu utilise les catégories de politique les plus pertinentes pour des garde-corps efficaces et introduit une approche pragmatique de la sécurité des modèles en répondant aux dommages générés par le modèle, comme les conseils non qualifiés et les PII.”
“Les systèmes de modération alimentés par l’IA sont utiles en théorie. Mais ils sont également susceptibles aux mêmes biais et défauts techniques qui affligent d’autres systèmes d’IA.”
Par exemple, certains modèles formés pour détecter la toxicité considèrent les phrases en anglais vernaculaire afro-américain (AAVE), la grammaire informelle utilisée par certains Afro-Américains, comme étant disproportionnément “toxiques”. Les publications sur les réseaux sociaux sur les personnes handicapées sont également souvent signalées comme plus négatives ou toxiques par les modèles détectant le sentiment et la toxicité, ont constaté des études. Mistral affirme que son modèle de modération est très précis, mais admet également qu’il est en cours de développement. Notamment, l’entreprise n’a pas comparé les performances de son API à celles d’autres API de modération populaires, comme l’API Perspective de Jigsaw et l’API de modération d’OpenAI.
“Nous travaillons avec nos clients pour construire et partager des outils de modération évolutifs, légers et personnalisables”, a déclaré l’entreprise, “et continuerons à nous engager avec la communauté de recherche pour contribuer aux progrès de la sécurité dans le domaine plus large.” Mistral a également annoncé une API par lots aujourd’hui. L’entreprise affirme qu’elle peut réduire le coût des modèles servis par son API de 25% en traitant les demandes de grand volume de manière asynchrone. Anthropic, OpenAI, Google et d’autres offrent également des options de regroupement pour leurs API d’IA.