alexi.sh
Sécurité navigateurConfidentialité réseauOutils de confidentialitéModélisation des menacesCodage IAOutils de dev

alexi.shAI Engineering Lab

ai-coding

Qu'est-ce qu'un embedding ? Des vecteurs qui capturent le sens (2026)

PrivSec Lab3 min de lecture
Des lignes de code source sur un écran sombre

Un embedding transforme texte, images ou autres données en un vecteur de nombres qui capture leur sens, de sorte que les choses similaires soient proches. Ce qu'est un embedding, son fonctionnement, ses usages, et pourquoi il propulse la recherche et le RAG.

Une recherche qui trouve le bon document même sans mot-clé commun avec votre requête ; une IA qui récupère la partie pertinente de vos notes pour répondre — les deux tournent sur des embeddings. Un embedding transforme des données en nombres qui capturent le sens, pour qu'un ordinateur mesure à quel point deux choses se ressemblent. Ce guide explique ce qu'est un embedding, son fonctionnement, ses usages, et pourquoi il sous-tend la recherche et l'IA modernes.

Ce qu'est un embedding

Un embedding représente des données — un mot, une phrase, une image — sous forme de vecteur : une liste de nombres (souvent des centaines ou des milliers) qui encode leur sens. La propriété déterminante : les éléments de sens proche obtiennent des vecteurs proches dans cet espace numérique, et les éléments sans rapport sont éloignés.

Ainsi « chien » et « chiot » atterrissent proches, loin de « tableur ». Les embeddings permettent aux ordinateurs de mesurer mathématiquement la similarité sémantique — fondement de la recherche moderne, des recommandations et de l'IA augmentée par récupération.

Des lignes de code source sur un écran sombre

Comment ça marche

Un modèle d'embedding (généralement un réseau de neurones) est entraîné pour mapper chaque entrée à un point dans un espace de haute dimension où le sens est encodé par la position. Les choses employées dans des contextes similaires finissent proches.

Donnez-lui du texte (ou une image) et il produit un vecteur de longueur fixe. Pour comparer deux éléments, vous mesurez la distance ou l'angle entre leurs vecteurs — couramment la similarité cosinus. Plus proche signifie plus similaire en sens. Le modèle ne « comprend » pas au sens humain ; il capture des motifs statistiques de similarité.

Du code sur un écran d'ordinateur
Du code sur un écran — un modèle d'embedding convertit le texte en un vecteur de nombres comparables mathématiquement.

À quoi servent les embeddings

  • Recherche sémantique — trouver des documents sur un sujet même sans mots-clés communs.
  • Génération augmentée par récupération (RAG) — encoder vos documents et une question, récupérer les segments les plus proches pour alimenter un LLM. C'est exactement le fonctionnement du RAG.
  • Recommandations — suggérer des éléments dont les embeddings sont proches de ce que vous avez aimé.
  • Clustering & classification — grouper ou étiqueter par similarité.
  • Déduplication & détection d'anomalies.

Partout où il faut « à quel point ces deux choses se ressemblent en sens ? », les embeddings sont l'outil.

Embedding vs token

Étapes liées. Un token est une petite unité de texte (mot ou morceau de mot) qu'un modèle lit. Un embedding est le vecteur numérique qui représente le sens — et dans un modèle, chaque token est converti en embedding avant traitement. Les tokens sont la façon dont le texte est découpé ; les embeddings, la façon dont ces morceaux deviennent des nombres porteurs de sens. En recherche/RAG, « un embedding » désigne généralement un vecteur pour un segment entier.

La limite honnête

Les embeddings sont puissants mais approximatifs. Ils capturent des motifs statistiques des données d'entraînement, donc la qualité dépend du modèle et du domaine — un modèle entraîné sur du texte web général peut mal juger du jargon spécialisé, et les biais passent dans les vecteurs. Différents modèles produisent des embeddings incompatibles, donc on ne mélange pas les vecteurs entre modèles. C'est un substitut remarquablement utile du sens, pas une vraie compréhension du langage.

En résumé

Un embedding transforme des données en un vecteur de nombres qui capture le sens, plaçant les choses similaires proches pour que la similarité devienne une distance mesurable. C'est le moteur discret derrière la recherche sémantique, les recommandations et le RAG. Rappelez-vous juste que c'est une approximation façonnée par son modèle d'entraînement — extraordinairement utile, mais un substitut du sens plutôt qu'une compréhension.

Photo : Unsplash (source)

Also available in