alexi.sh
Tous les articlesSécurité navigateurConfidentialité réseauOutils de confidentialitéModélisation des menacesCodage IAOutils de dev

alexi.shLabo IA

ai-coding

Qu'est-ce qu'Ollama ? Faire tourner des LLM en local en 2026

PrivSec Lab3 min de lecture
Un terminal en ligne de commande sous Ubuntu

Ollama est un outil open-source pour télécharger et exécuter des LLM en local en une commande - Llama, Qwen, Mistral et plus, sur votre machine. Ce que c'est, comment l'installer et l'utiliser, l'API REST, et les limites honnêtes face aux modèles cloud.

Si vous avez voulu faire tourner de l'IA sur votre propre ordinateur - sans cloud, sans clé API, sans rien qui quitte votre machine - Ollama est le moyen le plus simple en 2026. C'est un outil open-source qui télécharge et exécute des grands modèles de langage en local en une seule commande. Ce guide explique ce qu'est Ollama, comment l'installer et l'utiliser, son API locale, et les limites honnêtes face aux modèles cloud.

Ce qu'est Ollama

Ollama regroupe poids du modèle, configuration et runtime pour qu'une commande fonctionne :

ollama run qwen2.5

Cela télécharge le modèle au premier lancement et ouvre un chat local. Il tourne sur macOS, Linux et Windows, prend en charge de nombreux modèles ouverts (Llama, Qwen, Mistral, Gemma, DeepSeek et plus), et garde tout sur votre machine. C'est la porte d'entrée la plus simple vers l'IA locale.

Une allée de salle de serveurs bordée de baies

Installer et utiliser

Téléchargez l'installateur pour votre OS (ou lancez le script Linux), puis :

ollama run llama3.2     # discuter avec un modèle (télécharge au 1er lancement)
ollama pull qwen2.5     # récupérer un modèle sans discuter
ollama list             # voir les modèles installés
ollama serve            # lancer l'API locale

Volontairement minimal : une commande pour discuter, une pour récupérer, une pour servir.

L'API locale

Ollama lance une API REST sur http://localhost:11434 que les applis et scripts appellent pour générer du texte, discuter ou créer des embeddings - vous pouvez donc bâtir pipelines RAG, chatbots et assistants d'éditeur entièrement sur l'appareil. Des outils comme l'extension Continue (VS Code/JetBrains) s'y intègrent directement. Gardez le point d'accès sur localhost (pas 0.0.0.0) pour qu'il ne soit pas exposé sur votre réseau.

Pourquoi on utilise Ollama

  • Confidentialité : prompts et documents restent locaux - rien envoyé à un tiers. Voyez souveraineté des données.
  • Coût : outil gratuit, inférence gratuite sur du matériel que vous possédez.
  • Hors-ligne & reproductible : marche sans internet ; le même modèle se comporte pareil indéfiniment.

Pour choisir le bon modèle à exécuter, voyez le meilleur LLM local pour coder et meilleurs LLM coding 2026.

Les limites honnêtes

  • Matériel : il faut assez de RAM/VRAM pour la taille du modèle (un 7B en ~6–8 Go en 4 bits ; plus gros = plus). Apple Silicon à mémoire unifiée s'en sort bien.
  • Capacité : les modèles locaux 7B–70B sont excellents pour rédiger, résumer, l'aide au code et le RAG, mais les plus gros modèles hébergés devancent sur le raisonnement le plus dur et le plus long contexte.
  • Licences : les modèles ont leurs propres licences - respectez-les pour un usage commercial.

Le compromis est clair : Ollama offre confidentialité, coût nul au token et hors-ligne ; le cloud offre la capacité de pointe. Pour le côté cloud, voyez Cursor vs Copilot.

En résumé

Ollama est le moyen le plus simple d'exécuter des LLM en local en 2026 : une commande, de nombreux modèles ouverts, une API locale, et une confidentialité totale car rien ne quitte votre machine. Il n'égalera pas la frontière absolue des modèles hébergés sur les tâches les plus dures, mais pour le chat privé, l'aide au code, le RAG sur vos fichiers et l'usage hors-ligne, il est réellement excellent - et gratuit. Si l'IA locale et privée est votre but, Ollama est le point de départ.

Pour aller plus loin, associez Ollama au bon modèle dans le meilleur LLM local pour coder, et comprenez pourquoi garder l'inférence locale compte dans souveraineté des données.

Guide éditorial fondé sur les fonctionnalités documentées d'Ollama (runtime de modèles local, CLI, API REST sur localhost, modèles ouverts pris en charge) et les compromis documentés entre LLM locaux et hébergés. Nous indiquons clairement que les modèles locaux restent derrière les plus gros modèles hébergés sur les tâches les plus dures. Aucune relation commerciale n'influence ce guide.

Guides associés : Sécurité des agents IA.

Photo : Unsplash (source)

Aussi disponible en

FAQ

Qu'est-ce qu'Ollama ?
Ollama est un outil libre et open-source qui permet de télécharger et d'exécuter des grands modèles de langage (LLM) en local sur votre ordinateur en une seule commande. Il regroupe les poids du modèle, la configuration et un runtime pour que « ollama run llama3.2 » fonctionne directement - sans compte cloud, sans clé API, sans données quittant votre machine. Il tourne sur macOS, Linux et Windows, expose une API REST locale pour les applis, et prend en charge de nombreux modèles ouverts (Llama, Qwen, Mistral, Gemma, DeepSeek et plus). Voyez-le comme la porte d'entrée la plus simple vers l'IA locale.
Comment installer et utiliser Ollama ?
Téléchargez l'installateur pour votre OS depuis le site officiel (ou utilisez le script d'installation Linux), puis dans un terminal lancez « ollama run <modèle> », par exemple « ollama run qwen2.5 » - Ollama télécharge le modèle au premier lancement et ouvre une invite de chat. Autres commandes clés : « ollama pull <modèle> » pour récupérer un modèle, « ollama list » pour voir ceux installés, et « ollama serve » qui lance l'API locale. C'est volontairement minimal : une commande pour discuter, une pour récupérer, une pour servir.
Ollama a-t-il une API ?
Oui. Ollama lance une API REST locale (par défaut sur http://localhost:11434) que les applis et scripts peuvent appeler pour générer du texte, discuter ou créer des embeddings - vous pouvez donc bâtir des pipelines RAG, des assistants d'éditeur et des chatbots entièrement sur l'appareil. Beaucoup d'outils s'y intègrent d'emblée, dont l'extension Continue pour VS Code/JetBrains. Comme le point d'accès est local, vos prompts et données ne quittent jamais votre machine, sauf si vous exposez délibérément le port.
Ollama est-il privé et gratuit ?
Oui aux deux. Ollama est open-source et gratuit, et il exécute les modèles entièrement sur votre matériel, donc vos prompts et documents restent locaux - rien n'est envoyé à une API tierce. C'est un choix fort pour le travail sensible ou propriétaire. Deux réserves : gardez l'API liée à localhost (pas 0.0.0.0) pour qu'elle ne soit pas exposée sur votre réseau, et rappelez-vous que les modèles ont leurs propres licences à respecter pour un usage commercial.
Ollama est-il assez bon face à ChatGPT ou Claude ?
Pour beaucoup de tâches, oui - mais honnêtement, pas à la frontière absolue. Les modèles locaux exécutés via Ollama (classe 7B–70B) sont excellents pour rédiger, résumer, l'aide au code, le RAG sur vos documents et l'usage hors-ligne/privé. Les plus gros modèles hébergés devancent encore sur le raisonnement le plus dur et le plus long contexte. Le compromis est clair : Ollama offre confidentialité, coût nul au token et hors-ligne ; le cloud offre la capacité de pointe. Beaucoup utilisent les deux.