Si vous avez lu des choses sur le RAG, la recherche IA ou les recommandations, vous avez sans doute croisé le terme base de données vectorielle. Voici la version claire. Une base de données vectorielle stocke les données sous forme de vecteurs — des listes de nombres qui capturent le sens — et trouve les éléments par similarité, pas par correspondance exacte. Cette seule idée est ce qui donne à la recherche IA moderne l'impression de vous comprendre.
Ce qu'est vraiment une base de données vectorielle
Les bases classiques excellent dans les questions exactes : trouver l'utilisateur avec cet ID, ou toutes les commandes de la semaine dernière. Elles peinent sur « trouve-moi des choses qui veulent dire la même chose ». Une base de données vectorielle est conçue exactement pour ça.
Elle s'appuie sur les embeddings — les empreintes numériques qu'un modèle d'IA attribue au texte, aux images ou à l'audio. Les éléments de sens proche obtiennent des vecteurs qui se situent près les uns des autres. La base stocke ces vecteurs et, lors d'une recherche, renvoie ceux qui sont les plus proches de votre requête.

Comment fonctionne la recherche par similarité
Le déroulé tient en trois étapes :
- Embedding. Un modèle d'embedding transforme chaque document, image ou phrase en vecteur.
- Indexation. La base stocke ces vecteurs dans un index spécial (comme HNSW ou IVF) pour pouvoir explorer de grands ensembles rapidement.
- Requête. Votre recherche est elle aussi transformée en vecteur. La base renvoie les vecteurs les plus proches par distance.
Ainsi, une recherche pour « comment réinitialiser mon mot de passe » peut faire remonter un article intitulé « récupérer un identifiant oublié ». Les mots diffèrent, mais le sens — et les vecteurs — sont proches.
Base de données vectorielle vs base classique
Elles résolvent des problèmes différents, et la plupart des applications réelles utilisent les deux. Une base relationnelle contient vos enregistrements structurés et répond aux requêtes exactes. Une base vectorielle répond à « qu'est-ce qui ressemble le plus à ceci ? ». Vous gardez les lignes clients dans l'une et le sens recherchable dans l'autre. Des outils comme pgvector permettent même d'ajouter la recherche vectorielle à une base PostgreSQL classique, pour que les deux vivent au même endroit.
Pourquoi c'est important pour l'IA
Une base de données vectorielle est le moteur de récupération derrière une bonne partie de l'IA. Elle alimente la recherche sémantique, les recommandations de produits et de contenus et — surtout — l'étape de récupération dans le RAG, où un assistant va chercher le texte pertinent avant de répondre. Sans recherche par similarité rapide sur les embeddings, aucune de ces fonctionnalités ne serait viable à grande échelle.
En résumé
Une base de données vectorielle stocke le sens sous forme de vecteurs et trouve les éléments par similarité plutôt que par correspondance exacte. Elle ne remplace pas votre base classique — elle se place à côté d'elle et répond aux questions qu'une recherche par mots-clés n'a jamais pu traiter. Si vous construisez quoi que ce soit avec de la recherche sémantique ou du RAG, c'est la base de données vectorielle qui fait le gros du travail.


