Samedi dernier, Oleksandr Tomchuk, le PDG de Triplegangers, a été alerté que le site d’e-commerce de son entreprise ne fonctionnait plus. Il semblait s’agir d’une forme d’attaque par déni de service distribué. Il a rapidement découvert que le coupable était un bot d’OpenAI qui tentait sans relâche de scraper l’intégralité de son énorme site. “Nous avons plus de 65 000 produits, chaque produit a une page”, a déclaré Tomchuk à TechCrunch. “Chaque page comporte au moins trois photos”. OpenAI envoyait des “dizaines de milliers” de requêtes de serveur pour tout télécharger, soit des centaines de milliers de photos, accompagnées de leurs descriptions détaillées.
“OpenAI a utilisé 600 adresses IP pour scraper les données, et nous analysons toujours les logs de la semaine dernière, peut-être y en a-t-il encore plus”, a-t-il dit des adresses IP que le bot utilisait pour tenter de consommer son site. “Leurs crawlers écrasaient notre site”, a-t-il déclaré “C’était essentiellement une attaque DDoS”. Le site web de Triplegangers est son activité. L’entreprise de sept employés a passé plus d’une décennie à assembler ce qu’elle appelle la plus grande base de données de “doubles numériques humains” sur le web, c’est-à-dire des fichiers d’images 3D scannés à partir de véritables modèles humains.
“C’est effrayant parce qu’il semble y avoir une faille que ces entreprises utilisent pour récupérer des données en disant “vous pouvez vous désinscrire si vous mettez à jour votre fichier robot.txt avec nos balises”, déclare Tomchuk, mais cela met la responsabilité sur le propriétaire de l’entreprise de comprendre comment les bloquer.”
Elle vend les fichiers d’objets 3D, ainsi que les photos – allant des mains aux cheveux, la peau, et les corps entiers – à des artistes 3D, des fabricants de jeux vidéo, n’importe qui ayant besoin de recréer numériquement des caractéristiques humaines authentiques. L’équipe de Tomchuk, basée en Ukraine mais également licenciée aux États-Unis à Tampa, en Floride, dispose d’une page de conditions d’utilisation sur son site qui interdit aux bots de prendre ses images sans permission. Cependant, cela n’a rien fait. Les sites web doivent utiliser un fichier robot.txt correctement configuré avec des balises indiquant spécifiquement au bot d’OpenAI, GPTBot, de laisser le site tranquille.
Mercredi, après plusieurs jours de retour du bot OpenAI, Triplegangers avait enfin un fichier robot.txt correctement configuré, ainsi qu’un compte Cloudflare configuré pour bloquer son GPTBot et plusieurs autres bots qu’il a découverts, comme Barkrowler (un crawler SEO) et Bytespider (le crawler de TokTok). Tomchuk espère aussi avoir bloqué les crawlers d’autres entreprises de modèles d’IA. Jeudi matin, le site n’a pas planté, a-t-il déclaré. Mais Tomchuk n’a toujours aucun moyen raisonnable de savoir exactement ce qu’OpenAI a réussi à prendre ni de faire enlever ce matériel. Il n’a trouvé aucun moyen de contacter OpenAI et de demander. OpenAI n’a pas répondu à la demande de commentaire de TechCrunch. Et OpenAI n’a pas encore fourni l’outil de désinscription qu’elle promet depuis longtemps, comme TechCrunch l’a récemment signalé.