Les bases de données vectorielles sont à la mode, à en juger par le nombre de start-ups qui entrent dans ce secteur et les investisseurs qui mettent la main à la pâte. La prolifération des grands modèles de langage (LLM) et le mouvement de l’IA générative (GenAI) ont créé un terrain propice à l’épanouissement des technologies de bases de données vectorielles. Alors que les bases de données relationnelles traditionnelles telles que Postgres ou MySQL sont bien adaptées aux données structurées – des types de données prédéfinis qui peuvent être soigneusement rangés en lignes et en colonnes – cela ne fonctionne pas aussi bien pour les données non structurées telles que les images, les vidéos, les e-mails, les publications sur les réseaux sociaux, et toutes données qui ne respectent pas un modèle de données prédéfini.
Les bases de données vectorielles, en revanche, stockent et traitent les données sous forme d’incrustations vectorielles, qui convertissent le texte, les documents, les images et autres données en représentations numériques qui capturent le sens et les relations entre les différents points de données. Ceci est idéal pour l’apprentissage automatique, car la base de données stocke les données spatialement en fonction de la pertinence de chaque élément par rapport aux autres, ce qui facilite la récupération de données sémantiquement similaires. Ceci est particulièrement utile pour les LLMs, tels que GPT-4 d’OpenAI, car cela permet au chatbot IA de mieux comprendre le contexte d’une conversation en analysant les conversations similaires précédentes.
“La recherche vectorielle est également utile pour toutes sortes d’applications en temps réel, comme les recommandations de contenus dans les réseaux sociaux ou les applications de commerce électronique, car elle peut regarder ce qu’un utilisateur a recherché et retrouver des éléments similaires en un clin d’œil.”
La recherche vectorielle peut également aider à réduire les “hallucinations” dans les applications LLM, en fournissant des informations supplémentaires qui n’auraient peut-être pas été disponibles dans l’ensemble de données d’origine. “Sans utiliser la recherche de similarité vectorielle, vous pouvez toujours développer des applications AI/ML, mais vous devrez faire plus de réentrainement et de réglage fin”, a expliqué à TechCrunch Andre Zayarni, PDG et cofondateur de Qdrant, une start-up de recherche vectorielle. “Les bases de données vectorielles entrent en jeu lorsqu’il y a un grand jeu de données, et vous avez besoin d’un outil pour travailler avec les incorporations vectorielles de manière efficace et pratique.” En janvier, Qdrant a sécurisé 28 millions de dollars de financement pour capitaliser sur la croissance qui l’a conduit à devenir l’une des 10 start-ups open source commerciales à la croissance la plus rapide l’année dernière. Et ce n’est pas la seule start-up de bases de données vectorielles à avoir levé des fonds récemment – Vespa, Weaviate, Pinecone et Chroma ont collectivement levé 200 millions de dollars l’année dernière pour diverses offres vectorielles.
Depuis le début de l’année, nous avons également vu Index Ventures diriger un tour de financement initial de 9,5 millions de dollars dans Superlinked, une plateforme qui transforme les données complexes en incorporations vectorielles. Et il y a quelques semaines, Y Combinator (YC) a dévoilé sa cohorte d’hiver ’24, qui comprenait Lantern, une start-up qui vend un moteur de recherche vectorielle hébergé pour Postgres. Ailleurs, Marqo a levé un tour de financement initial de 4,4 millions de dollars fin de l’année dernière, rapidement suivi d’un tour de série A de 12,5 millions de dollars en février.
La plateforme Marqo fournit une gamme complète d’outils vectoriels clés en main, allant de la génération de vecteurs à leur stockage et récupération, permettant aux utilisateurs de contourner les outils tiers de sociétés telles qu’OpenAI ou Hugging Face, et offre tout via une seule API.