alexi.sh
Tous les articlesSécurité navigateurConfidentialité réseauOutils de confidentialitéModélisation des menacesCodage IAOutils de dev

alexi.shLabo IA

ai-coding

LLM local et vie privée : faire tourner l'IA en local pour que vos données ne partent jamais (2026)

PrivSec Lab6 min de lecture
Un processeur AMD Ryzen installé dans le socket d'une carte mère

Faire tourner un LLM en local, c'est garder vos prompts et vos données sur votre machine — contrairement à ChatGPT, Claude ou Gemini, où l'entrée part sur les serveurs du fournisseur. Quels modèles open-weight et quels outils choisir pour la confidentialité, le matériel nécessaire, et les compromis honnêtes face au cloud.

Si vous voulez utiliser l'IA sans que vos prompts quittent jamais votre ordinateur, un LLM local est la réponse. Faire tourner un grand modèle de langage sur votre propre machine, c'est traiter votre entrée sur l'appareil et ne jamais l'envoyer dans le cloud — l'inverse de ChatGPT, Claude ou Gemini. Ce guide explique pourquoi le local est plus privé, quels outils et modèles open-weight choisir pour la confidentialité, le matériel nécessaire, et les compromis honnêtes.

La réponse courte

Faites tourner le modèle en local et vos données restent chez vous. Des outils comme Ollama ou llama.cpp chargent un modèle open-weight sur votre matériel et y font tout le traitement — sans compte, sans envoi, hors-ligne. Avec les chatbots cloud, chaque prompt est transmis aux serveurs du fournisseur. Pour des échanges privés — juridique, médical, code propriétaire, notes perso — l'inférence locale supprime totalement cette exposition.

Un processeur AMD Ryzen installé dans le socket d'une carte mère

Pourquoi le local est plus privé que ChatGPT ou le cloud

Avec un service cloud, votre prompt — et tout ce que vous y collez — voyage sur le réseau jusqu'aux serveurs du fournisseur pour y être traité. Sauf opt-out, cette entrée peut servir à entraîner de futurs modèles. Il faut aussi un compte, et les données sont conservées sur l'infrastructure d'un tiers.

Un modèle local inverse tout cela :

  • Rien ne quitte l'appareil. Vos prompts et documents sont traités sur votre propre CPU/GPU.
  • Pas de compte, hors-ligne. Récupérez le modèle une fois, puis utilisez-le sans connexion internet.
  • Pas d'entraînement sur vos données. Le modèle est un fichier statique ; l'inférence n'envoie votre entrée nulle part.

C'est le choix naturel pour tout ce qui est confidentiel — et c'est pourquoi ceux qui utilisent Ollama s'y tournent pour le travail sensible.

Les outils pour exécuter un modèle en local

Vous n'exécutez pas les poids à la main — un runtime le fait pour vous :

  • Ollama — le CLI le plus simple. Une commande (ollama run llama3.1) télécharge et lance un modèle. Open-source, sans télémétrie.
  • LM Studio — une GUI conviviale pour qui préfère cliquer plutôt que le terminal.
  • llama.cpp — le moteur open-source léger sur lequel beaucoup d'outils sont bâtis ; contrôle maximal.
  • GPT4All et Jan — d'autres applis de bureau qui regroupent modèles et interface de chat.

Ollama et llama.cpp sont open-source et ne font pas de « phone home », ce qui en fait les choix les plus sûrs pour la confidentialité. Pour une prise en main complète, voyez ce qu'est Ollama.

Quels modèles open-weight choisir pour la confidentialité

N'importe quel modèle open-weight exécuté en local est privé — l'inférence se fait sur votre machine. Le vrai choix porte sur la capacité face à ce que votre matériel peut contenir. Les familles solides qui tournent en local sans télémétrie :

ModèleTailleRAM typique (4 bits)Adapté à
Mistral 7B7B~6–8 GoLaptops légers, usage quotidien rapide
Llama 3.1 8B8B~6–8 GoMeilleur équilibre sur matériel grand public
Gemma 2 (Google)9B / 27B~8 Go / ~20 GoRédaction de qualité, résumés
Qwen 2.514B / 32B~12 Go / ~24 GoPlus capable, demande plus de VRAM
Phi (Microsoft)petit~4–6 GoTrès petites machines
DeepSeekvariablevariablePoids ouverts orientés raisonnement

Choix pratique : sur un laptop typique, Llama 3.1 8B ou Mistral 7B quantizé en 4 bits est l'équilibre idéal. Avec un GPU plus costaud, Qwen 2.5 14B/32B ou Gemma 2 27B donnent plus de capacité tout en restant entièrement hors-ligne.

Matériel : ce qu'il vous faut (et la quantization)

Les besoins augmentent avec le nombre de paramètres du modèle :

  • Petits (3–8B) : tournent sur un laptop moderne avec 8 à 16 Go de RAM, en CPU ou sur un GPU modeste.
  • Gros (70B) : nécessitent un GPU puissant (24 Go+ de VRAM), sinon ils sont lents.

Le levier qui rend cela praticable est la quantization — stocker les poids du modèle en précision réduite, typiquement en 4 bits, ce qui diminue fortement les besoins en mémoire pour une faible perte de qualité. C'est pourquoi un modèle 8B tient dans environ 6 à 8 Go au lieu de beaucoup plus. Commencez par un petit modèle quantizé, observez la performance, et montez en gamme seulement si votre matériel le permet.

Gros plan d'une carte électronique et de sa puce processeur centrale

Les compromis honnêtes

Le local est plus privé, mais pas exempt de compromis :

  • Moins capable. Les modèles locaux 7–32B restent derrière les modèles cloud de frontière (GPT-5, Claude) sur le raisonnement le plus dur et le plus long contexte.
  • Plus lent. Sur du matériel grand public, la génération est plus lente qu'une API hébergée répondant depuis un datacenter.
  • Vous gérez les mises à jour. Récupérer les nouvelles versions de modèles et garder l'outil à jour vous incombe.

Pour le travail privé, sensible ou hors-ligne, le compromis en vaut généralement la peine. Pour la capacité de pointe sur un problème dur ponctuel, le cloud devance encore — beaucoup utilisent les deux. Si votre but est de garder les données sur l'appareil, voyez IA et confidentialité des données.

Le caveat : vérifier que l'outil ne fait pas de « phone home »

La confidentialité du « local » dépend de l'outil qui ne transmet rien, pas seulement du modèle. Ollama et llama.cpp sont open-source et n'envoient pas de données d'usage. Certaines applis GUI ont une télémétrie optionnelle — vérifiez les réglages et désactivez-la. Télécharger les poids depuis Hugging Face est normal et sans souci ; c'est un transfert unique, et l'inférence reste locale. Vérifiez le runtime, et vos prompts ne quittent réellement jamais la machine.

En résumé

Un LLM local est la façon la plus privée d'utiliser l'IA : vos données restent sur votre appareil, ça marche hors-ligne, sans compte et sans entraînement sur votre entrée. Choisissez un modèle open-weight (Llama 3.1 8B ou Mistral 7B pour commencer), exécutez-le avec Ollama ou llama.cpp, utilisez la quantization 4 bits pour tenir sur votre matériel, et vérifiez l'absence de télémétrie. Il n'égalera pas les modèles cloud de frontière sur les tâches les plus dures — mais pour le travail confidentiel, le compromis en vaut la peine. Pour le meilleur modèle à associer, voyez le meilleur LLM local pour coder.

Pour aller plus loin, apprenez le runtime dans ce qu'est Ollama, choisissez un modèle dans le meilleur LLM local pour coder, et comprenez pourquoi l'inférence sur l'appareil compte dans IA et confidentialité des données.

Guide éditorial fondé sur le comportement documenté des runtimes de LLM locaux (inférence sur l'appareil, aucune transmission réseau) face aux chatbots cloud (entrée envoyée aux serveurs du fournisseur, usage possible pour l'entraînement sauf opt-out), les effets mémoire documentés de la quantization 4 bits, et l'écart de capacité documenté entre modèles open-weight locaux et plus gros modèles hébergés. Nous indiquons clairement que les modèles locaux restent derrière la frontière sur les tâches les plus dures et que certaines applis GUI portent une télémétrie optionnelle. Aucune relation commerciale n'influence ce guide.

Guides associés : Qu'est-ce qu'Ollama ?

Photo : Unsplash (source)

Aussi disponible en

FAQ

Un LLM local est-il vraiment plus privé que ChatGPT ?
Oui, par conception. Quand vous exécutez un modèle en local avec un outil comme Ollama ou llama.cpp, vos prompts et tout document collé sont traités entièrement sur votre matériel — rien ne part sur le réseau. Avec des services cloud comme ChatGPT, Claude ou Gemini, votre entrée est transmise aux serveurs du fournisseur pour être traitée, et sauf opt-out, elle peut servir à améliorer leurs modèles. L'inférence locale supprime totalement cette exposition : pas de compte, pas d'envoi, et ça marche hors-ligne. La seule nuance porte sur l'outil, pas le modèle — les runtimes open-source comme Ollama et llama.cpp ne font pas de « phone home », mais certaines applis GUI ont une télémétrie optionnelle à vérifier dans les réglages.
Quel LLM local est le meilleur pour la confidentialité ?
Pour la confidentialité, n'importe quel modèle open-weight exécuté via Ollama ou llama.cpp est privé, car l'inférence se fait sur votre machine — le choix porte en réalité sur la capacité selon votre matériel. Un bon équilibre sur du matériel grand public est Llama 3.1 8B ou Mistral 7B, quantizés en 4 bits, qui tournent confortablement sur un laptop moderne avec 8 à 16 Go de RAM. Si vous avez un GPU plus costaud avec plus de VRAM, Qwen 2.5 14B/32B ou Gemma 2 27B sont plus capables tout en restant entièrement hors-ligne. Tous sont des modèles open-weight sans télémétrie propre.
Quel matériel faut-il pour faire tourner un LLM en local ?
Cela dépend de la taille du modèle. Les petits modèles de 3 à 8B tournent sur un laptop moderne avec 8 à 16 Go de RAM, en CPU ou sur un GPU modeste. Les gros modèles comme 70B nécessitent un GPU puissant (24 Go+ de VRAM), sinon ils sont lents. La quantization — typiquement en 4 bits — réduit fortement l'empreinte mémoire d'un modèle, ce qui rend les modèles 7–8B praticables sur des machines de tous les jours. Apple Silicon à mémoire unifiée s'en sort bien. Commencez petit, observez la performance, puis montez en gamme si votre matériel le permet.
Les modèles locaux s'entraînent-ils sur mes données ?
Non. Les modèles open-weight que vous téléchargez sont des fichiers statiques — faire de l'inférence dessus n'envoie vos prompts nulle part et ne s'entraîne pas sur votre entrée. C'est l'avantage de confidentialité fondamental face aux services cloud, où vos conversations peuvent être conservées et servir à améliorer le modèle sauf opt-out. Télécharger les poids depuis un hub comme Hugging Face est un transfert unique ; ensuite, chaque prompt tapé reste sur votre appareil. Assurez-vous simplement que le runtime ou l'appli utilisé ne transmet pas de données d'usage.
Quels sont les inconvénients de faire tourner un LLM en local ?
Honnêtement, quelques-uns. Les modèles locaux sont plus petits et moins capables que les modèles cloud de frontière (GPT-5, Claude) sur le raisonnement le plus dur et le plus long contexte. Ils sont plus lents sur du matériel grand public qu'une API hébergée répondant depuis un datacenter. Et vous gérez vos propres mises à jour — récupérer les nouvelles versions de modèles et garder votre outil à jour. Pour le travail privé, sensible ou hors-ligne, le compromis en vaut généralement la peine ; pour la capacité de pointe sur un problème dur, le cloud devance encore. Beaucoup utilisent les deux selon la tâche.