La Wikimedia Foundation, l’organisation chapeautant Wikipedia et une dizaine d’autres projets de partage des connaissances par crowdsourcing, a déclaré mercredi que la consommation de bande passante pour les téléchargements multimédia provenant de Wikimedia Commons avait bondi de 50% depuis janvier 2024. La raison de cette augmentation, selon un billet de blog publié mardi par la fondation, n’est pas une demande croissante de la part des humains assoiffés de connaissance, mais des robots aspirateurs de données automatiques cherchant à entraîner des modèles d’IA.
« Notre infrastructure est construite pour supporter les pics de trafic soudains provenant des humains lors d’événements suscitant un grand intérêt, mais le volume de trafic généré par les robots aspirateurs est sans précédent et présente des risques et des coûts croissants », peut-on lire dans le billet. Wikimedia Commons est un répertoire librement accessible d’images, de vidéos et de fichiers audio qui sont disponibles sous des licences ouvertes ou qui sont par ailleurs dans le domaine public.
L’augmentation exponentielle du trafic généré par les robots d’IA impose des coûts conséquents à la Wikimedia Foundation et menace l’existence même de l’internet ouvert.
En creusant davantage, Wikimedia révèle que près des deux tiers (65%) du trafic le plus « coûteux » – c’est-à-dire le plus intensif en ressources en termes de type de contenu consommé – provenaient de robots. Cependant, seuls 35% des pages vues globales viennent de ces robots. Selon Wikimedia, ce déséquilibre s’explique par le fait que le contenu souvent consulté reste plus proche de l’utilisateur dans son cache, tandis que le contenu moins couramment consulté est stocké plus loin dans le « centre de données principal », ce qui coûte plus cher pour diffuser du contenu. C’est précisément le type de contenu que recherchent généralement les robots.
« Alors que les lecteurs humains tendent à se concentrer sur des sujets spécifiques – souvent similaires – les robots d’exploration ont tendance à « lire en vrac » un plus grand nombre de pages et à visiter également les pages moins populaires », écrit Wikimedia. « Cela signifie que ces types de requêtes sont plus susceptibles d’être transférées au centre de données principal, ce qui le rend beaucoup plus coûteux en termes de consommation de nos ressources. »
En résumé, l’équipe de fiabilité du site de la Wikimedia Foundation doit passer beaucoup de temps et de ressources à bloquer les robots d’exploration pour éviter les perturbations pour les utilisateurs réguliers. Et tout cela avant même de prendre en compte les coûts du cloud auxquels la Fondation doit faire face. En réalité, ceci représente une partie d’une tendance en forte croissance qui menace l’existence même de l’Internet ouvert.