alexi.sh
Tous les articlesSécurité navigateurConfidentialité réseauOutils de confidentialitéModélisation des menacesCodage IAOutils de dev

alexi.shRecherches

ai-coding

Qu'est-ce qu'une base de données vectorielle ? Le guide clair (2026)

PrivSec Lab3 min de lecture
Un serveur en rack avec plusieurs baies de disques

Une base de données vectorielle stocke les données sous forme de vecteurs (embeddings) et trouve les éléments par le sens, pas par correspondance exacte. Ce que c'est, comment fonctionne la recherche par similarité, en quoi elle diffère d'une base classique, et pourquoi le RAG et la recherche IA en dépendent.

Si vous avez lu des choses sur le RAG, la recherche IA ou les recommandations, vous avez sans doute croisé le terme base de données vectorielle. Voici la version claire. Une base de données vectorielle stocke les données sous forme de vecteurs — des listes de nombres qui capturent le sens — et trouve les éléments par similarité, pas par correspondance exacte. Cette seule idée est ce qui donne à la recherche IA moderne l'impression de vous comprendre.

Ce qu'est vraiment une base de données vectorielle

Les bases classiques excellent dans les questions exactes : trouver l'utilisateur avec cet ID, ou toutes les commandes de la semaine dernière. Elles peinent sur « trouve-moi des choses qui veulent dire la même chose ». Une base de données vectorielle est conçue exactement pour ça.

Elle s'appuie sur les embeddings — les empreintes numériques qu'un modèle d'IA attribue au texte, aux images ou à l'audio. Les éléments de sens proche obtiennent des vecteurs qui se situent près les uns des autres. La base stocke ces vecteurs et, lors d'une recherche, renvoie ceux qui sont les plus proches de votre requête.

Stockage matériel
Une base de données vectorielle garde des millions d'embeddings sur disque et en mémoire, et les explore par similarité en quelques millisecondes.

Comment fonctionne la recherche par similarité

Le déroulé tient en trois étapes :

  1. Embedding. Un modèle d'embedding transforme chaque document, image ou phrase en vecteur.
  2. Indexation. La base stocke ces vecteurs dans un index spécial (comme HNSW ou IVF) pour pouvoir explorer de grands ensembles rapidement.
  3. Requête. Votre recherche est elle aussi transformée en vecteur. La base renvoie les vecteurs les plus proches par distance.

Ainsi, une recherche pour « comment réinitialiser mon mot de passe » peut faire remonter un article intitulé « récupérer un identifiant oublié ». Les mots diffèrent, mais le sens — et les vecteurs — sont proches.

Base de données vectorielle vs base classique

Elles résolvent des problèmes différents, et la plupart des applications réelles utilisent les deux. Une base relationnelle contient vos enregistrements structurés et répond aux requêtes exactes. Une base vectorielle répond à « qu'est-ce qui ressemble le plus à ceci ? ». Vous gardez les lignes clients dans l'une et le sens recherchable dans l'autre. Des outils comme pgvector permettent même d'ajouter la recherche vectorielle à une base PostgreSQL classique, pour que les deux vivent au même endroit.

Pourquoi c'est important pour l'IA

Une base de données vectorielle est le moteur de récupération derrière une bonne partie de l'IA. Elle alimente la recherche sémantique, les recommandations de produits et de contenus et — surtout — l'étape de récupération dans le RAG, où un assistant va chercher le texte pertinent avant de répondre. Sans recherche par similarité rapide sur les embeddings, aucune de ces fonctionnalités ne serait viable à grande échelle.

En résumé

Une base de données vectorielle stocke le sens sous forme de vecteurs et trouve les éléments par similarité plutôt que par correspondance exacte. Elle ne remplace pas votre base classique — elle se place à côté d'elle et répond aux questions qu'une recherche par mots-clés n'a jamais pu traiter. Si vous construisez quoi que ce soit avec de la recherche sémantique ou du RAG, c'est la base de données vectorielle qui fait le gros du travail.

Photo: Pixabay (source)

Aussi disponible en

FAQ

Qu'est-ce qu'une base de données vectorielle en termes simples ?
Une base de données vectorielle stocke les données sous forme de vecteurs — de longues listes de nombres appelées embeddings qui capturent le sens. Au lieu de chercher des mots exacts, elle trouve les éléments dont les vecteurs sont les plus proches de celui de votre requête. Ainsi, une recherche pour « comment réinitialiser mon mot de passe » peut renvoyer un article d'aide intitulé « récupérer un identifiant oublié », parce qu'ils veulent dire la même chose. C'est le moteur derrière la recherche sémantique, les recommandations et l'étape de récupération dans la plupart des assistants IA.
En quoi une base de données vectorielle diffère-t-elle d'une base classique ?
Une base classique (relationnelle) est conçue pour des requêtes exactes et structurées : trouver la ligne où id = 42, ou où pays = « France ». Une base vectorielle est conçue pour la similarité : trouver les éléments les plus proches de celui-ci. Elle ne cherche pas une correspondance exacte — elle classe les résultats selon la proximité de leurs vecteurs. Les deux sont complémentaires. Beaucoup d'applications utilisent une base classique pour les enregistrements et une base vectorielle pour la recherche par le sens.
Comment fonctionne concrètement la recherche par similarité ?
Trois étapes. D'abord, un modèle d'embedding transforme chaque élément (un document, une image ou une phrase) en vecteur. Ensuite, la base vectorielle stocke ces vecteurs dans un index spécial (comme HNSW ou IVF) qui rend la recherche du plus proche voisin rapide, même sur des millions d'éléments. Enfin, quand une requête arrive, elle est elle aussi transformée en vecteur, et la base renvoie les vecteurs les plus proches par distance. Vous récupérez les éléments les plus similaires en quelques millisecondes.
Quelles bases de données vectorielles sont populaires en 2026 ?
Les options courantes incluent Pinecone, Weaviate, Qdrant, Milvus et Chroma, ainsi que pgvector, qui ajoute la recherche vectorielle à PostgreSQL pour tout garder dans une seule base. Le bon choix dépend de l'échelle, du fait de vouloir un service géré ou de l'héberger soi-même, et du besoin d'avoir les vecteurs aux côtés de vos données relationnelles existantes. Pour les petits projets, pgvector ou Chroma sont des points de départ faciles.