Google met à la disposition du public SynthID Text, sa technologie qui permet aux développeurs de marquer et de détecter les textes écrits par des modèles d’IA génératifs. SynthID Text peut être téléchargé à partir de la plateforme IA Hugging Face et de l’outil Responsible GenAI Toolkit, récemment mis à jour par Google. “Nous rendons notre outil de marquage SynthID Text open source”, a écrit l’entreprise dans un post sur X. “Disponible gratuitement pour les développeurs et les entreprises, il les aidera à identifier leur contenu généré par l’IA.”
Alors comment fonctionne exactement SynthID Text ? Étant donné une incitation telle que “Quel est votre fruit préféré ?”, les modèles générateurs de texte prédisent quel “token” suit le plus probablement un autre – un token à la fois. Les tokens, qui peuvent être un seul caractère ou un mot, sont les éléments de base qu’un modèle génératif utilise pour traiter les informations. Un modèle attribue à chaque token possible un score, qui est la chance en pourcentage qu’il soit inclus dans le texte de sortie. SynthID Text insère des informations supplémentaires dans cette distribution de tokens en “modulant la probabilité de génération des tokens”, dit Google.
“Le motif final des scores, à la fois pour les choix de mots du modèle et pour les scores de probabilité ajustés, est considéré comme le filigrane”, a écrit l’entreprise dans un post de blog. “Ce motif de scores est comparé au motif attendu des scores pour les textes marqués et non marqués, aidant SynthID à détecter si un outil d’IA a généré le texte ou si il peut provenir d’autres sources.”
“Il y a un sentiment d’urgence. Selon un rapport de l’Agence de l’Union Européenne pour l’Application des Lois, 90% du contenu en ligne pourrait être généré de manière synthétique d’ici 2026, entrainant de nouveaux défis pour l’application des lois autour de la désinformation, de la propagande, de la fraude et de la tromperie.”
Google affirme que SynthID Text, qui a été intégré à ses modèles Gemini depuis ce printemps, ne compromet ni la qualité, ni la précision, ni la vitesse de génération de texte, et fonctionne même sur des textes qui ont été recadrés, paraphrasés ou modifiés. Mais la société admet également que son approche de marquage a des limites. Par exemple, SynthID Text ne fonctionne pas aussi bien avec un texte court, avec un texte qui a été réécrit ou traduit d’une autre langue, ou avec des réponses à des questions factuelles.
Google n’est pas la seule entreprise à travailler sur une technologie de marquage de texte par IA. OpenAI a recherché pendant des années des méthodes de marquage, mais a retardé leur sortie en raison de considérations techniques et commerciales. Les techniques de marquage de texte, si elles sont largement adoptées, pourraient aider à inverser la tendance des “détecteurs d’IA” de plus en plus populaires, mais souvent imprécis, qui signalent faussement des essais et des documents écrits dans un ton plus générique. Mais la question se pose : seront-elles largement adoptées – et la norme ou la technologie proposée par une organisation l’emportera-t-elle sur les autres ?