Chatbots, assistants de code, résumeurs — presque chaque outil d'IA que vous avez utilisé récemment repose sur un LLM. Le terme est partout en 2026, mais rarement expliqué clairement. Ce guide y répond simplement : ce qu'est un grand modèle de langage, comment il marche vraiment, ce à quoi il excelle, et — tout aussi important — ce qu'il ne sait pas faire.
Ce qu'est un LLM
Un LLM (grand modèle de langage) est un réseau de neurones entraîné sur d'énormes quantités de texte pour comprendre et générer un langage proche de l'humain. Son rôle de base est trompeusement simple : prédire le prochain token (mot ou morceau de mot) compte tenu de ce qui précède. Répétez cela encore et encore et vous obtenez réponses cohérentes, textes, traductions et code.
« Grand » renvoie aux données d'entraînement (une grande part du web public et plus) et aux paramètres — souvent des milliards de valeurs internes qui stockent ce que le modèle a appris. ChatGPT, Claude, Gemini et Llama sont tous des LLM.
Comment ça marche
Presque tout LLM moderne utilise l'architecture transformer. L'entraînement se fait par étapes :
- Pré-entraînement — le modèle lit un texte immense et apprend des motifs en prédisant sans cesse le prochain token et en se corrigeant. C'est là que se forme l'essentiel de ses connaissances.
- Fine-tuning & RLHF — il est ensuite affiné avec des exemples soignés et un retour humain pour être plus utile, suivre les instructions et éviter les sorties nuisibles.
À l'inférence (quand vous l'utilisez), vous donnez un prompt et il génère une réponse un token à la fois, chacun tiré des probabilités apprises. Crucial : il ne consulte rien — il prédit un texte plausible à partir de motifs.
Tokens et paramètres
- Tokens — l'unité de texte qu'un LLM lit et écrit, environ un mot ou morceau de mot. Des limites comme la fenêtre de contexte se mesurent en tokens.
- Paramètres — les milliards de poids internes ajustés à l'entraînement qui stockent ce que le modèle a appris.
Plus de paramètres et de données peuvent signifier plus de capacité, mais l'architecture, la qualité des données et le fine-tuning comptent autant que la taille brute.
Ce que les LLM savent et ne savent pas faire
Forts pour : rédiger et résumer, répondre, traduire, expliquer, écrire et déboguer du code.
Limites réelles :
- Hallucination — ils peuvent affirmer des faussetés avec assurance. Ils prédisent un texte plausible, pas forcément exact.
- Date limite de connaissances — ils ne connaissent pas d'office les événements récents.
- Aucune vraie compréhension — pas de croyances ni d'ancrage, juste des motifs appris.
- Biais — ils peuvent refléter les biais de leurs données.
Le remède pour les faits et l'actualité est de leur fournir de vraies sources au moment de répondre — c'est exactement ce que fait le RAG (génération augmentée par récupération).
LLM vs IA
L'IA est le domaine large ; un LLM en est un type en vue, spécialisé dans le langage. Tout LLM est de l'IA, mais générateurs d'images, recommandeurs et agents de jeu sont aussi de l'IA, bâtis autrement. « IA » signifie souvent aujourd'hui un chatbot LLM — mais les termes ne sont pas interchangeables.
L'exécuter et en choisir un
Vous pouvez exécuter des LLM ouverts en privé sur votre machine avec Ollama, et pour le développement, voyez notre guide des meilleurs LLM pour coder. Les mêmes fondamentaux — tokens, paramètres, prédiction du prochain token — s'appliquent que le modèle tourne dans le cloud ou sur votre portable.
En résumé
Un LLM est un réseau de neurones qui génère du langage en prédisant le prochain token, entraîné sur un texte immense et affiné par retour humain. Il est remarquablement doué pour le langage et le code, et réellement limité par l'hallucination, une date limite de connaissances et l'absence de vraie compréhension. Utilisez-le pour ses points forts, vérifiez ce qui compte, et ajoutez la récupération quand il vous faut des faits actuels et ancrés.