Jeudi, Reddit déploie sa nouvelle politique visant à équilibrer son désir de céder sous licence son contenu à des entreprises technologiques plus importantes, comme Google, tout en protégeant la confidentialité de ses utilisateurs. La nouvelle “Politique de contenu public” rejoint désormais la politique de confidentialité existante de Reddit et la politique de contenu pour guider la manière dont les données de Reddit sont accessibles et utilisées par les entités commerciales et autres partenaires. En lien avec cela, la société a également annoncé un subreddit dédié aux chercheurs travaillant avec les données de Reddit.
Cette annonce survient peu de temps après les débuts de Reddit en bourse, la société se positionnant pour augmenter ses revenus non seulement grâce aux publicités diffusées sur sa plateforme et à l’utilisation de son API par les développeurs, mais également grâce à son corpus de données. La société a déclaré dans son prospectus d’IPO avoir déjà gagné 203 millions de dollars grâce à des accords de licence de données et s’attend à ce que ce chiffre augmente au fil du temps. Alors que Reddit n’avait pas historiquement bloqué l’accès à ses données à des fins d’entraînement d’IA, il a changé de cap l’année dernière.
Le PDG de Reddit, Steve Huffman, a déclaré au New York Times qu’il n’était pas logique que Reddit continue à donner “toute cette valeur à certaines des plus grandes entreprises du monde gratuitement”, signalant le plan de la société de se lancer dans l’espace de la licence de données.
Avec ces efforts déjà bien avancés, la nouvelle politique de contenu public limitera l’accès aux données de Reddit sans accord. (Reddit dit qu’il n’ajoute pas de nouvelles restrictions, il rend simplement publique la politique qu’il a mise en place en interne depuis un certain temps.). “Malheureusement, nous voyons de plus en plus d’entités commerciales utiliser un accès non autorisé ou abuser d’un accès autorisé pour collecter en masse des données publiques, y compris le contenu public de Reddit”, écrit Reddit sur son blog. “Pire, ces entités ont l’impression qu’elles n’ont aucune limitation quant à leur utilisation de ces données, et elles le font sans tenir compte des droits ou de la vie privée des utilisateurs, ignorant les demandes légales, de sécurité et de suppression des utilisateurs raisonnables.
Tout en promettant de continuer à bloquer les mauvais acteurs connus, Reddit suggère que des mesures supplémentaires sont nécessaires pour restreindre l’accès en masse au contenu public de Reddit aux acteurs de confiance qui ont accepté de se conformer à ses politiques. Cela signifie que l’accès aux données de Reddit pour des recherches et d’autres efforts non commerciaux se poursuivra, mais que les entités qui souhaitent utiliser les données de Reddit à d’autres fins – y compris pour l’entraînement d’IA – devront payer. Dans un graphique partagé sur le blog, Reddit rend cela clair, en disant que les entreprises intéressées à utiliser les données de Reddit pour “alimenter, augmenter ou améliorer votre produit à des fins commerciales” nécessitent un contrat.
Les annonceurs, quant à eux, sont dirigés vers une API d’annonces pour gérer leurs campagnes et suivre leurs performances. Comme cette entreprise est essentiellement juste un grand site web, indexable par les moteurs de recherche, cette nouvelle politique vise à verrouiller le contenu de Reddit contre toute collecte non autorisée tout en respectant les droits des utilisateurs. Par exemple, Reddit dit que ses partenaires devront enregistrer les décisions des utilisateurs de supprimer leur contenu. Ainsi, si les utilisateurs ne souhaitent pas que leurs messages personnels deviennent des éléments de discussion pour les futurs moteurs d’IA, ils devraient pouvoir se retirer. Les partenaires sont également restreints par la nouvelle politique d’utiliser le contenu de Reddit pour identifier des individus ou leurs informations personnelles, y compris pour le ciblage publicitaire.
Les partenaires ne peuvent pas non plus utiliser le contenu de Reddit pour spammer ou harceler ses utilisateurs ou pour mener des “vérifications d’antécédents, reconnaissance faciale, surveillance gouvernementale, ou aider les forces de l’ordre à faire l’une ou l’autre de ces choses”. La politique restreint également l’accès aux médias pour adultes et précise que Reddit ne vendra pas les informations personnelles de ses utilisateurs. La société note également qu’elle ne cédera jamais sous licence de contenu non public, comme les messages privés ou les informations de compte non public, comme les courriels des utilisateurs ou l’historique de navigation, entre autres choses. Pour aider les chercheurs qui souhaitent utiliser les données de Reddit à des fins non commerciales, la société a créé un nouveau subreddit, r/reddit4researchers.
La société dit s’associer à OpenMined pour également développer un programme visant à guider et à développer la collaboration des chercheurs avec Reddit.