Les erreurs d’orthographe de l’IA de Google ont récemment fait surface, illustrant les limites actuelles des modèles de traitement du langage naturel. Lors d’une démonstration, l’IA a confirmé qu’il y avait deux « P » dans « Google », mais a également affirmé qu’il y en avait « exactement 1 » dans « poop » ou encore deux « d » dans « journalisme », alors que le mot est en réalité « journalisme » (j-o-u-r-n-a-d-i-s-m). D’autres erreurs incluaient la mention d’un « r » dans « Google » et une fausse orthographe du nom du président américain, révélant une certaine confusion de l’outil.
Ce type de failles n’est pas nouvelle : lorsque Google a d’abord intégré ses « AI Overviews » à la recherche, le système a été victime de citations de posts satiriques ou absurdes, allant jusqu’à conseiller de manger des roches ou d’ajouter de la colle sur une pizza. Avec cette nouvelle initiative, Google mise encore davantage sur l’intelligence artificielle générative comme pierre angulaire de ses 29 années d’existence, ce qui explique en partie ces dérapages. La firme a reconnu que la comptabilité au sein des mots demeure un défi pour ses modèles, déclarant travailler activement à la correction de ces erreurs.
Les modèles de traitement du langage sont conçus pour générer du contenu, pas pour maîtriser l’orthographe, et ces échecs rappellent que l’IA n’est pas infaillible.
Les erreurs de transcription ou d’orthographe ne se limitent pas à ces cas anecdotiques. Récemment, une recherche sur le mot « disregard » affichait une réponse ressemblant à une définition de dictionnaire, mais à laquelle l’IA avait ajouté une phrase hors contexte. Selon des chercheurs, le cœur du problème réside dans la manière dont ces modèles traitent le texte : ils le transforment en « tokens » ou unités, qui peuvent être des mots, des syllabes ou même des lettres. Plutôt que de « lire » comme un humain, l’IA convertit le texte en représentations numériques, rendant difficile une compréhension précise de la structure linguistique.
« Les architectures de ces modèles, basées sur des transformers, ne lisent pas le texte comme nous, elles l’analysent à travers des encodages », explique Matthew Guzdial, chercheur en intelligence artificielle. La nature même de leur fonctionnement limite leur capacité à gérer des subtilités comme l’orthographe, ce qui signifie qu’un certain degré d’erreurs est inévitable. Des experts en la matière, comme Sheridan Feucht, suggèrent qu’il n’existe pas de « tokenizer » parfait, en raison de la nature floue du langage humain. Ces imperfections ne posent pas forcément un problème pour l’utilité globale des IA, mais elles soulignent qu’il faut continuer à garder un œil critique sur leurs outputs.
En fin de compte, ces laps de style rappellent que même si l’intelligence artificielle peut accomplir des exploits impressionnants, elle possède encore des limites fondamentales. La confiance aveugle dans ces outils serait risquée, surtout lorsqu’il s’agit de leur capacité à produire des réponses précises ou correctes. La prudence reste donc de mise, et la vérification humaine demeure indispensable. Comme le montre cette série d’erreurs, l’IA n’est pas prête à supplanter totalement la compréhension et le discernement humains.
