Posez à un LLM brut une question sur les docs internes de votre entreprise ou un code privé, et il dira soit qu'il ne sait pas, soit, pire, inventera quelque chose avec assurance — il n'a jamais été entraîné sur vos données. Le RAG (génération augmentée par récupération) corrige cela sans rien réentraîner : récupérer d'abord le texte pertinent, puis laisser le modèle répondre ancré dedans. Ce guide explique ce qu'est le RAG, comment le pipeline fonctionne étape par étape, pourquoi il bat le fine-tuning pour les faits, et ses limites honnêtes.
Ce qu'est réellement le RAG
Le RAG combine deux parties : un récupérateur qui trouve les passages pertinents d'une source de connaissances, et un générateur (le LLM) qui rédige une réponse à partir de ces passages. Au lieu d'espérer que le modèle a mémorisé le bon fait à l'entraînement, vous allez chercher le fait au moment de répondre et le mettez dans le prompt.
Le modèle mental clé : le LLM n'apprend pas vos documents. À chaque question, le système tire les morceaux pertinents et le modèle les lit à neuf — comme un examen à livre ouvert plutôt qu'un rappel de mémoire.
Comment fonctionne le pipeline
- Découper — segmenter les documents en passages assez petits pour être précis mais assez grands pour garder le contexte.
- Encoder — transformer chaque segment en vecteur (représentation numérique du sens) avec un modèle d'embedding.
- Stocker — conserver les vecteurs dans une base vectorielle ou un index.
- Récupérer — encoder la question entrante et trouver les segments les plus similaires.
- Augmenter & générer — insérer les segments récupérés dans le prompt à côté de la question ; le LLM répond ancré dedans, idéalement avec citations.
Mettez à jour vos connaissances en changeant les documents — pas de réentraînement, pas d'attente.
RAG vs fine-tuning
Une confusion courante. Le fine-tuning ajuste les poids du modèle — bon pour changer le style ou la compétence, mauvais et coûteux pour injecter des faits, et périmé dès que vos données changent. Le RAG laisse le modèle fixe et fournit les faits au moment de la requête : les connaissances restent à jour, privées et citables. Pour « répondre à des questions sur mes documents ou mon code », le RAG est presque toujours le bon outil. Réservez le fine-tuning pour changer le comportement, pas pour mémoriser une base de connaissances.
Les limites honnêtes
Le RAG réduit l'hallucination mais ne l'abolit pas. Il ne vaut que sa récupération :
- Si le bon passage n'est pas récupéré, le modèle peut quand même deviner.
- Si des segments hors sujet sont injectés, ils peuvent induire la réponse en erreur.
- La stratégie de découpage et le modèle d'embedding comptent souvent plus que le LLM choisi.
Le RAG est un ancrage, pas une garantie — traitez la qualité de récupération comme la chose à concevoir.
Le bâtir en privé
Vous pouvez exécuter tout le pipeline sur votre propre matériel : un modèle d'embedding et un LLM locaux via Ollama, plus un magasin de vecteurs local, pour que les documents sensibles ne quittent jamais votre machine. Pour choisir le modèle qui génère la réponse finale, voyez notre guide des meilleurs LLM locaux pour coder. L'architecture est identique en local ou dans le cloud — seul change l'endroit où vivent le calcul et les données.
En résumé
Le RAG est la façon pratique de faire répondre un LLM avec exactitude sur des informations sur lesquelles il n'a jamais été entraîné : récupérer le texte pertinent, ancrer la réponse dedans, citer la source. Il bat le fine-tuning pour les faits, peut tourner entièrement en privé avec des modèles locaux, et réduit l'hallucination — à condition d'investir dans une bonne récupération, car le RAG ne vaut jamais que les passages qu'il tire.