Reddit a annoncé mardi qu’il met à jour son Protocole d’Exclusion de Robots (fichier robots.txt), qui indique aux robots web automatisés s’ils sont autorisés à parcourir un site. Historiquement, le fichier robots.txt était utilisé pour permettre aux moteurs de recherche de parcourir un site et de diriger ensuite les gens vers le contenu. Cependant, avec l’émergence de l’intelligence artificielle (IA), les sites web sont récupérés et utilisés pour entraîner des modèles sans reconnaître la véritable source du contenu.
En plus de la mise à jour du fichier robots.txt, Reddit continuera de limiter en quantité et de bloquer les robots et les collections inconnues qui accèdent à sa plateforme. La société a déclaré à TechCrunch que les robots et les crawlers seront limités en quantité ou bloqués s’ils ne respectent pas la Politique de Contenu Public de Reddit et s’ils n’ont pas d’accord avec la plateforme.
“Toute personne accédant au contenu de Reddit doit se conformer à nos politiques, y compris celles mises en place pour protéger les redditors,” a déclaré Reddit dans son billet de blog.
Reddit affirme que la mise à jour ne devrait pas affecter la majorité des utilisateurs ou des acteurs de bonne foi, comme les chercheurs et les organisations, telles que l’Internet Archive. Au lieu de cela, la mise à jour vise à dissuader les entreprises d’IA de former leurs grands modèles de langage sur le contenu de Reddit.
Bien sûr, les robots d’IA pourraient ignorer le fichier robots.txt de Reddit. L’annonce intervient quelques jours après qu’une enquête de Wired ait révélé que la start-up Perplexity, alimentée par l’IA, a volé et récupéré du contenu. Wired a découvert que Perplexity semble ignorer les demandes de ne pas parcourir son site web, même si elle a bloqué la start-up dans son fichier robots.txt. Le PDG de Perplexity, Aravind Srinivas, a répondu aux allégations en déclarant que le fichier robots.txt n’est pas un cadre juridique.
Les changements à venir de Reddit n’affecteront pas les entreprises avec lesquelles elle a conclu un accord. Par exemple, Reddit a conclu un accord de 60 millions de dollars avec Google qui permet au géant de la recherche de former ses modèles d’IA sur le contenu de la plateforme sociale. Avec ces changements, Reddit indique aux autres entreprises qui souhaitent utiliser les données de Reddit pour l’entraînement de l’IA qu’elles devront payer. “Nous sommes sélectifs sur les personnes avec qui nous travaillons et à qui nous faisons confiance pour un accès à grande échelle au contenu de Reddit,” a ajouté l’entreprise. L’annonce n’est pas une surprise, car Reddit a publié une nouvelle politique il y a quelques semaines qui visait à guider l’accès et l’utilisation des données de Reddit par les entités commerciales et d’autres partenaires.