Linkup connecte les LLMs avec des sources de contenu premium (légalement)

Generated with DALL·E 3

Si vous avez utilisé ChatGPT Search ou Perplexity, vous savez qu’avoir la possibilité de chercher sur le web et de voir des citations en ligne améliore grandement ces chatbots AI. Les résultats sont meilleurs lorsqu’ils comprennent des informations actualisées, et la recherche sur le web peut réduire les dites “hallucinations” (c’est-à-dire quand une AI générative émet des informations incorrectes). C’est pourquoi la startup française Linkup construit une API qui permet aux développeurs d’accéder au contenu web de sources premium et fiables et de remettre les résultats à un grand modèle de langage (LLM) pour enrichir ses réponses. Beaucoup de développeurs d’AI appellent ce flux de travail Retrieval-Augmented Generation (ou RAG). Plus important encore, l’avenir des bots de scraping est incertain.

S’il n’y a pas d’accord financier préexistant entre les éditeurs de contenu et les entités qui scrapent les pages web, ces bots extraient du contenu du web ouvert sans payer, et beaucoup de gens ne sont pas contents de cette affaire – ce qui augmente la surveillance réglementaire autour de la formation d’AI. Il y a également maintenant des affaires juridiques de haut profil, comme le procès en cours entre OpenAI, l’inventeur de ChatGPT, et le New York Times, donc la situation concernant le web scraping pourrait changer dans un proche avenir.

C’est pourquoi OpenAI a signé des contrats de licence de contenu multianuels avec de grands éditeurs tels que AP, Axel Springer, Condé Nast, El País, le Financial Times, Le Monde, et d’autres. “Nous avons créé l’entreprise au moment où OpenAI concluait des accords avec des sources d’actualité… pour des raisons de formation ou d’inférence, afin d’augmenter les réponses des modèles OpenAI et leurs produits. Et nous avons pensé : ‘OK, c’est génial parce que nous avons finalement des entreprises d’AI qui paient leurs sources'”, a déclaré à TechCrunch Philippe Mizrahi, co-fondateur et CEO de Linkup, en expliquant ce qui a incité les fondateurs à créer une entreprise pour connecter les développeurs d’AI avec des fournisseurs de contenu pour — espérons-le — leur bénéfice mutuel.

“Nous ciblons vraiment des applications qui mettent en œuvre l’IA dans leurs propres produits”, a déclaré Mizrahi.

Actuellement, les éditeurs de contenu sont confrontés à des décisions difficiles sur quoi faire de la soif de données de GenAI. Ils peuvent bloquer les scrapeurs web en utilisant le fichier de métadonnées robots.txt, non juridiquement contraignant, qui indique si un site web peut être utilisé pour entraîner un modèle d’IA ou non. De plus, ils peuvent poursuivre les entreprises d’IA qu’ils croient avoir enfreint leur droit d’auteur. Alternativement, ils pourraient laisser les bots indexer leur contenu librement (er, YOLO?). Ou bien, ils pourraient être en mesure de concéder des licences de contenu aux développeurs d’IA pour obtenir une compensation pour leur propriété intellectuelle.

Mais il y a des milliers d’entreprises technologiques qui utilisent A qui n’ont pas l’échelle et la portée d’OpenAI. En même temps, ce qu’il y a de bien sur le web, c’est qu’il y a une longue traîne d’éditeurs de contenu. Mais cela signifie qu’un petit éditeur de contenu n’a généralement pas suffisamment de ressources financières pour intenter un procès. Cela signifie également qu’il sera difficile de passer d’un modèle de scraping à un modèle de licence pour des millions de sites web. C’est pourquoi Linkup n’est pas seulement une solution technique. C’est une place de marché — un intermédiaire entre les éditeurs de contenu et les entreprises qui veulent enrichir leurs réponses LLM avec du contenu web. Linkup signe des contrats de licence de contenu avec les éditeurs et s’intègre à leur CMS afin qu’il puisse récupérer le contenu des éditeurs sans aucun scraping. Linkup paie ensuite les partenaires de contenu en fonction de la fréquence à laquelle leur contenu est consulté par les clients de Linkup.

Partagez cet article
article précédent

OpenAI cherche à déposer sa marque pour ses modèles de ‘raisonnement’ o1 | TechCrunch

article suivant

Des entreprises de presse canadiennes poursuivent OpenAI | TechCrunch

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire plus d'articles