Les modèles d’IA générative ne traitent pas le texte de la même manière que les humains. Comprendre leur environnement interne basé sur des “tokens” peut aider à expliquer certains de leurs comportements étranges – et leurs limitations tenaces. La plupart des modèles, des petits utilisés sur les appareils comme Gemma aux plus performants de l’industrie tels que GPT-4o d’OpenAI, sont construits sur une architecture connue sous le nom de transformer. En raison de la manière dont les transformateurs établissent des associations entre le texte et d’autres types de données, ils ne peuvent ni recevoir ni produire de texte brut – du moins pas sans une quantité massive de calcul. Pour des raisons à la fois pragmatiques et techniques, les modèles de transformateurs d’aujourd’hui travaillent avec du texte qui a été décomposé en morceaux plus petits, appelés tokens, par un processus appelé tokenisation. Les tokens peuvent être des mots, comme “fantastique”. Ou ils peuvent être des syllabes, comme “fan”, “tas” et “tic”. En fonction du tokenizeur – le modèle qui effectue la tokenisation – ils pourraient même être des caractères individuels dans les mots (par exemple, “f”, “a”, “n”, “t”, “a”, “s”, “t”, “i”, “c”).
Grâce à cette méthode, les transformateurs peuvent absorber plus d’informations (dans le sens sémantique) avant d’atteindre une limite supérieure connue sous le nom de fenêtre de contexte. Mais la tokenisation peut aussi introduire des biais. Certains tokens ont un espacement bizarre, qui peut déstabiliser un transformateur. Un tokenizeur pourrait encoder “il était une fois” comme “il”, “était”, “une”, “fois”, par exemple, tout en encodant “il était une ” (qui a un espace blanc à la fin) comme “il”, “était”, “une”, ” “. Selon la manière dont un modèle est sollicité – avec “il était une” ou “il était une “, – les résultats peuvent être complètement différents, car le modèle ne comprend pas (comme le ferait une personne) que le sens est le même. Les tokenizeurs traitent également la casse de manière différente, “Bonjour” n’est pas nécessairement la même chose que “BONJOUR” pour un modèle ; “bonjour” est généralement un token (selon le tokenizeur), tandis que “BONJOUR” peut en avoir jusqu’à trois (“BO”, “NJ” et “OUR”). C’est pourquoi de nombreux transformateurs échouent au test de la lettre majuscule.
“C’est une question difficile de savoir exactement ce qu’un ‘mot’ devrait être pour un modèle de langage, et même si nous obtenions l’accord d’experts humains pour une parfaite tokenisation, les modèles auraient probablement encore besoin de ‘regrouper’ les éléments”, déclare Sheridan Feucht, étudiant en doctorat étudiant l’interprétabilité des grands modèles de langage à l’Université Northeastern.
Cette “confusion” crée encore plus de problèmes dans les langues autres que l’anglais. De nombreuses méthodes de tokenisation supposent qu’un espace dans une phrase signifie un nouveau mot. C’est parce qu’elles ont été conçues avec l’anglais en tête. Mais toutes les langues n’utilisent pas d’espace pour séparer les mots. Le chinois et le japonais ne le font pas – ni le coréen, le thaï ou le khmer. Une étude d’Oxford de 2023 a révélé que, en raison des différences dans la manière dont les langues non anglaises sont tokenisées, un transformateur peut mettre deux fois plus de temps à accomplir une tâche formulée dans une langue non anglaise par rapport à la même tâche formulée en anglais.
La même étude – et une autre – ont révélé que les utilisateurs de langues moins “efficaces en termes de tokens” sont susceptibles de voir une performance de modèle pire et de payer plus pour l’utilisation, étant donné que de nombreux fournisseurs d’IA facturent par token. Les tokenizeurs traitent souvent chaque caractère dans les systèmes d’écriture logographiques – systèmes dans lesquels les symboles imprimés représentent des mots sans rapport avec la prononciation, comme le chinois – comme un token distinct, conduisant à des comptages de tokens élevés. De même, les tokenizeurs qui traitent les langues agglutinantes – langues où les mots sont constitués de petits éléments de mots significatifs appelés morphèmes, comme le turc – ont tendance à transformer chaque morphème en token, augmentant le nombre total de tokens.
Les modèles tels que MambaByte représentent donc une étape vers la possible résolution des défis posés par la tokenisation pour l’IA générative. Or, pour le moment, ces modèles demeurent à l’étape de la recherche. “Il est probablement préférable de laisser les modèles examiner directement les caractères sans imposer de tokenisation, mais pour l’instant c’est tout simplement infaisable sur le plan informatique pour les transformateurs”, a déclaré Sheridan Feucht. Autrement dit, à moins d’une percée dans la tokenisation, de nouvelles architectures de modèles seront la clé.