Si vous avez voulu faire tourner de l'IA sur votre propre ordinateur — sans cloud, sans clé API, sans rien qui quitte votre machine — Ollama est le moyen le plus simple en 2026. C'est un outil open-source qui télécharge et exécute des grands modèles de langage en local en une seule commande. Ce guide explique ce qu'est Ollama, comment l'installer et l'utiliser, son API locale, et les limites honnêtes face aux modèles cloud.
Ce qu'est Ollama
Ollama regroupe poids du modèle, configuration et runtime pour qu'une commande fonctionne :
ollama run qwen2.5
Cela télécharge le modèle au premier lancement et ouvre un chat local. Il tourne sur macOS, Linux et Windows, prend en charge de nombreux modèles ouverts (Llama, Qwen, Mistral, Gemma, DeepSeek et plus), et garde tout sur votre machine. C'est la porte d'entrée la plus simple vers l'IA locale.
Installer et utiliser
Téléchargez l'installateur pour votre OS (ou lancez le script Linux), puis :
ollama run llama3.2 # discuter avec un modèle (télécharge au 1er lancement)
ollama pull qwen2.5 # récupérer un modèle sans discuter
ollama list # voir les modèles installés
ollama serve # lancer l'API locale
Volontairement minimal : une commande pour discuter, une pour récupérer, une pour servir.
L'API locale
Ollama lance une API REST sur http://localhost:11434 que les applis et scripts appellent pour générer du texte, discuter ou créer des embeddings — vous pouvez donc bâtir pipelines RAG, chatbots et assistants d'éditeur entièrement sur l'appareil. Des outils comme l'extension Continue (VS Code/JetBrains) s'y intègrent directement. Gardez le point d'accès sur localhost (pas 0.0.0.0) pour qu'il ne soit pas exposé sur votre réseau.
Pourquoi on utilise Ollama
- Confidentialité : prompts et documents restent locaux — rien envoyé à un tiers. Voyez souveraineté des données.
- Coût : outil gratuit, inférence gratuite sur du matériel que vous possédez.
- Hors-ligne & reproductible : marche sans internet ; le même modèle se comporte pareil indéfiniment.
Pour choisir le bon modèle à exécuter, voyez le meilleur LLM local pour coder et meilleurs LLM coding 2026.
Les limites honnêtes
- Matériel : il faut assez de RAM/VRAM pour la taille du modèle (un 7B en ~6–8 Go en 4 bits ; plus gros = plus). Apple Silicon à mémoire unifiée s'en sort bien.
- Capacité : les modèles locaux 7B–70B sont excellents pour rédiger, résumer, l'aide au code et le RAG, mais les plus gros modèles hébergés devancent sur le raisonnement le plus dur et le plus long contexte.
- Licences : les modèles ont leurs propres licences — respectez-les pour un usage commercial.
Le compromis est clair : Ollama offre confidentialité, coût nul au token et hors-ligne ; le cloud offre la capacité de pointe. Pour le côté cloud, voyez Cursor vs Copilot.
En résumé
Ollama est le moyen le plus simple d'exécuter des LLM en local en 2026 : une commande, de nombreux modèles ouverts, une API locale, et une confidentialité totale car rien ne quitte votre machine. Il n'égalera pas la frontière absolue des modèles hébergés sur les tâches les plus dures, mais pour le chat privé, l'aide au code, le RAG sur vos fichiers et l'usage hors-ligne, il est réellement excellent — et gratuit. Si l'IA locale et privée est votre but, Ollama est le point de départ.
Pour aller plus loin, associez Ollama au bon modèle dans le meilleur LLM local pour coder, et comprenez pourquoi garder l'inférence locale compte dans souveraineté des données.
Guide éditorial fondé sur les fonctionnalités documentées d'Ollama (runtime de modèles local, CLI, API REST sur localhost, modèles ouverts pris en charge) et les compromis documentés entre LLM locaux et hébergés. Nous indiquons clairement que les modèles locaux restent derrière les plus gros modèles hébergés sur les tâches les plus dures. Aucune relation commerciale n'influence ce guide.