Google transforme son vaste réservoir de données publiques en une mine d’or pour l’intelligence artificielle avec le lancement du serveur Model Context Protocol (MCP) de Data Commons. Cette innovation permet aux développeurs, scientifiques des données et agents IA d’accéder aux statistiques du monde réel grâce à un langage naturel, tout en améliorant la formation des systèmes d’IA. Lancé en 2018, le Data Commons de Google organise des ensembles de données publiques provenant de diverses sources, y compris des enquêtes gouvernementales, des données administratives locales et des statistiques d’organisations mondiales comme les Nations Unies.
Avec la sortie du MCP Server, ces données sont désormais accessibles via des requêtes en langage naturel, permettant aux développeurs de les intégrer dans des agents IA ou des applications. Les systèmes d’IA sont souvent formés sur des données du Web qui peuvent être bruyantes et non vérifiées. Combinés à leur tendance à « remplir les blancs » lorsque des sources manquent, cela entraîne des hallucinations. Par conséquent, les entreprises cherchant à peaufiner les systèmes d’IA pour des cas d’utilisation spécifiques ont souvent besoin d’accéder à de grands ensembles de données de haute qualité. En rendant le MCP Server de son Data Commons accessible au public, Google vise à relever ces deux défis.
Le serveur MCP de Data Commons de Google facilite l’accès à des données fiables, renforçant ainsi la fondation des systèmes d’IA.
Le nouveau serveur MCP de Data Commons établit un pont entre des ensembles de données publiques — des chiffres de recensement aux statistiques climatiques — avec des systèmes d’IA qui dépendent de plus en plus d’un contexte précis et structuré. En rendant ces données accessibles au moyen de requêtes en langage naturel, cet outil vise à ancrer l’IA dans des informations vérifiables et pertinentes. « Le Model Context Protocol nous permet d’utiliser l’intelligence du grand modèle de langage pour choisir les bonnes données au bon moment, sans avoir à comprendre comment nous modélisons les données, ni comment fonctionne notre API », a déclaré Prem Ramaswami, responsable de Data Commons chez Google, lors d’une interview.
Introduit pour la première fois par Anthropic en novembre dernier, le MCP est une norme ouverte de l’industrie qui permet aux systèmes d’IA d’accéder aux données de diverses sources, y compris des outils commerciaux et des environnements de développement d’applications, fournissant un cadre commun pour comprendre les requêtes contextuelles. Depuis son lancement, des entreprises comme OpenAI, Microsoft et Google ont adopté cette norme pour intégrer leurs modèles d’IA avec différentes sources de données. Tandis que d’autres entreprises technologiques explorent comment appliquer cette norme à leurs modèles d’IA, Ramaswami et son équipe chez Google ont commencé à examiner comment ce cadre pouvait être utilisé pour rendre la plateforme Data Commons plus accessible, dès le début de cette année.
Google a également établi un partenariat avec la ONE Campaign, une organisation à but non lucratif axée sur l’amélioration des opportunités économiques et de la santé publique en Afrique, pour lancer l’agent de données ONE. Cet outil d’IA utilise le serveur MCP pour faire ressortir des dizaines de millions de points de données financières et de santé en langage clair. La ONE Campaign a contacté l’équipe Data Commons de Google avec un prototype de mise en œuvre de MCP sur son propre serveur personnalisé. Cette interaction, selon Ramaswami, a été le tournant qui a conduit l’équipe à construire un serveur MCP dédié en mai. Cependant, l’expérience n’est pas limitée à la ONE Campaign. La nature ouverte du serveur MCP de Data Commons le rend compatible avec n’importe quel modèle de langage, et Google a fourni plusieurs moyens pour aider les développeurs à se lancer.
Un agent d’exemple est disponible via l’Agent Development Kit (ADK) dans un carnet Colab, et le serveur peut également être accessible directement via le Gemini CLI ou tout client compatible MCP en utilisant le package PyPI. Un code d’exemple est également fourni dans un dépôt GitHub pour faciliter la prise en main des développeurs. Ainsi, avec des ressources de qualité et un accès à des données réelles, Google ouvre la voie à une utilisation plus précise et efficace de l’IA dans diverses applications.