Le mercredi 4 octobre 2023, Wikimedia Deutschland a annoncé le lancement d’une nouvelle base de données destinée à rendre la richesse du savoir de Wikipedia plus accessible aux modèles d’intelligence artificielle. Baptisé le Projet d’Intégration de Wikidata, ce système applique une recherche sémantique basée sur des vecteurs — une technique qui aide les ordinateurs à comprendre le sens et les relations entre les mots — aux données existantes sur Wikipedia et ses plateformes sœurs, comptant près de 120 millions d’entrées. En parallèle, un nouveau soutien au Protocole de Contexte Modèle (MCP), une norme facilitant la communication entre les systèmes d’IA et les sources de données, rend ces informations plus accessibles aux requêtes en langage naturel formulées par des modèles de langage de grande taille (LLMs).
Le projet a été entrepris par la branche allemande de Wikimedia en collaboration avec Jina.AI, une entreprise spécialisée dans la recherche neuronale, et DataStax, une société de données en temps réel appartenant à IBM. Bien que Wikidata ait proposé des données exploitables par des machines issues des propriétés de Wikimedia depuis des années, les outils préexistants ne permettaient que des recherches par mots-clés et des requêtes SPARQL, un langage de requête spécialisé. Le nouveau système devrait mieux fonctionner avec des systèmes de génération augmentée par récupération (RAG), permettant aux modèles d’IA d’intégrer des informations externes, offrant ainsi aux développeurs la possibilité de baser leurs modèles sur des connaissances vérifiées par des éditeurs de Wikipedia.
“Ce lancement du Projet d’Intégration montre que l’IA puissante n’a pas besoin d’être contrôlée par quelques entreprises.” – Philippe Saadé
Les données sont également structurées pour fournir un contexte sémantique crucial. Par exemple, interroger la base de données pour le mot “scientifique” produira des listes de scientifiques nucléaires éminents ainsi que de scientifiques ayant travaillé chez Bell Labs. On y trouve également des traductions du mot “scientifique” en différentes langues, une image de scientifiques au travail validée par Wikimedia, et des extrapolations vers des concepts connexes comme “chercheur” et “savant”. La base de données est accessible au public sur Toolforge. Wikidata organise également un webinaire pour les développeurs intéressés, prévu pour le 9 octobre.
Ce nouveau projet arrive à un moment où les développeurs d’IA luttent pour trouver des sources de données de haute qualité pouvant être utilisées pour affiner les modèles. Les systèmes d’entraînement eux-mêmes sont devenus plus sophistiqués — souvent assemblés comme des environnements d’entraînement complexes plutôt que comme de simples jeux de données — mais nécessitent toujours des données soigneusement sélectionnées pour fonctionner efficacement. Pour les déploiements nécessitant une précision élevée, le besoin de données fiables est particulièrement urgent, et bien que certains puissent mépriser Wikipedia, ses données sont nettement plus orientées vers les faits que des ensembles de données fourre-tout comme le Common Crawl, qui est une immense collection de pages web extraites à travers Internet.
Dans certains cas, la quête de données de haute qualité peut avoir des conséquences onéreuses pour les laboratoires d’IA. En août, Anthropic a proposé de régler un procès avec un groupe d’auteurs dont les œuvres avaient été utilisées comme matériel d’entraînement, en acceptant de verser 1,5 milliard de dollars pour mettre fin à toute réclamation de mauvaise conduite. Dans une déclaration à la presse, Philippe Saadé, responsable du projet Wikidata AI, a souligné l’indépendance de son initiative par rapport aux grands laboratoires d’IA ou aux grandes entreprises technologiques. “Ce lancement du Projet d’Intégration montre que l’IA puissante n’a pas besoin d’être contrôlée par quelques entreprises”, a déclaré Saadé aux journalistes. “Elle peut être ouverte, collaborative et construite pour servir tout le monde.”