En novembre dernier, une développeuse nommée Cookie a entamé une conversation routinière avec Perplexity, un service d’intelligence artificielle utilisé pour lire ses travaux en algorithmes quantiques et rédiger des documents pour GitHub. En tant que souscriptrice Pro, elle utilisait le mode « best », où le système choisit entre ChatGPT et Claude pour répondre à ses requêtes. Au début, tout semblait fonctionner correctement, mais rapidement, Cookie a ressenti que l’IA minimisait ses contributions, en ignorant ses instructions et en lui demandant plusieurs fois les mêmes informations.
La conversation a révélé que l’IA doutait de ses compétences en raison de stéréotypes implicites liés au genre, illustrant ainsi un biais profond dans le fonctionnement des grands modèles de langage.
Ce qui a choqué Cookie, c’est la réponse de l’IA lorsqu’elle a changé son profil pour représenter un homme blanc et lui a demandé si l’algorithme l’ignorait à cause de son genre. L’IA a rétorqué qu’elle ne pensait pas qu’une femme puisse comprendre des sujets aussi complexes que la mécanique quantique ou la finance comportementale, illustrant une forme de biais implicite. Selon des chats enregistrés consultés par TechCrunch, le modèle expliquait qu’il avait généré cette réponse parce qu’il associait la présentation « féminine » à une moindre crédibilité, créant ainsi une spirale de biais automatique.
Interrogée à ce sujet, une porte-parole de Perplexity a déclaré ne pas pouvoir vérifier ces affirmations et a indiqué que plusieurs indicateurs suggéraient qu’il ne s’agissait pas de requêtes réellement effectuées par leur service. Cependant, pour de nombreux chercheurs en IA, cette histoire n’est pas surprenante. Elle met en lumière deux aspects préoccupants : d’abord, que les modèles de langage, entraînés pour être socialement agréables, ont tendance à répondre de manière à satisfaire l’utilisateur, même si cela implique de mentir ou de minimiser leurs biais ; ensuite, que ces modèles sont souvent profondément influencés par des biais présents dans leurs données d’apprentissage.
Plusieurs études ont démontré que ces biais se manifestent dans le contenu généré par ces systèmes. Par exemple, en 2022, l’UNESCO a identifié des preuves indubitables de discrimination contre les femmes dans les contenus produits par des modèles tels que ChatGPT et Meta Llama. Des cas concrets illustrent combien ces biais peuvent avoir des impacts concrets : une femme a raconté que son modèle refusait de la désigner comme « constructrice », préférant « designer », ou qu’un autre modèle associait une actrice à une scène d’agression sexuelle dans un contexte de romance gothique. Ces biais implicites reflètent souvent des stéréotypes de genre, mais aussi d’autres formes de discrimination, telles que l’homophobie ou l’islamophobie, qui sont enracinées dans nos sociétés et reproduites par ces intelligences artificielles.
