alexi.sh
Todos los artículosSeguridad del navegadorPrivacidad de redHerramientas de privacidadModelado de amenazasProgramación con IAHerramientas de dev

alexi.shLaboratorio de IA

ai-coding

¿Qué es Ollama? Ejecuta LLM en local en 2026 (guía para empezar)

PrivSec Lab3 min de lectura
Una terminal de línea de comandos en Ubuntu

Ollama es una herramienta de código abierto para descargar y ejecutar LLM en local con un comando - Llama, Qwen, Mistral y más, en tu propia máquina. Qué es, cómo instalarlo y usarlo, la API REST, y los límites honestos frente a los modelos en la nube.

Si has querido ejecutar IA en tu propio ordenador - sin nube, sin clave API, sin que nada salga de tu máquina - Ollama es la forma más sencilla de hacerlo en 2026. Es una herramienta de código abierto que descarga y ejecuta grandes modelos de lenguaje en local con un solo comando. Esta guía explica qué es Ollama, cómo instalarlo y usarlo, su API local, y los límites honestos frente a los modelos en la nube.

Qué es Ollama

Ollama agrupa pesos del modelo, configuración y runtime para que un comando funcione:

ollama run qwen2.5

Eso descarga el modelo en el primer arranque y abre un chat local. Funciona en macOS, Linux y Windows, admite muchos modelos abiertos (Llama, Qwen, Mistral, Gemma, DeepSeek y más), y mantiene todo en tu máquina. Es la entrada más sencilla a la IA local.

Un pasillo de sala de servidores con armarios a los lados

Instalar y usar

Descarga el instalador para tu sistema (o ejecuta el script de Linux), luego:

ollama run llama3.2     # chatear con un modelo (descarga en el 1er arranque)
ollama pull qwen2.5     # traer un modelo sin chatear
ollama list             # ver los modelos instalados
ollama serve            # ejecutar la API local

Deliberadamente mínimo: un comando para chatear, uno para traer, uno para servir.

La API local

Ollama ejecuta una API REST en http://localhost:11434 que apps y scripts llaman para generar texto, chatear o crear embeddings - así puedes construir pipelines RAG, chatbots y asistentes de editor por completo en el dispositivo. Herramientas como la extensión Continue (VS Code/JetBrains) se integran directamente. Mantén el punto de acceso en localhost (no 0.0.0.0) para que no quede expuesto en tu red.

Por qué se usa Ollama

  • Privacidad: prompts y documentos se quedan en local - nada enviado a terceros. Consulta soberanía de datos.
  • Coste: herramienta gratis, inferencia gratis en hardware que posees.
  • Sin conexión y reproducible: funciona sin internet; el mismo modelo se comporta igual indefinidamente.

Para elegir el modelo adecuado, consulta el mejor LLM local para programar y mejores LLM coding 2026.

Los límites honestos

  • Hardware: necesitas suficiente RAM/VRAM para el tamaño del modelo (un 7B en ~6–8 GB a 4 bits; más grande necesita más). Apple Silicon con memoria unificada va bien.
  • Capacidad: los modelos locales 7B–70B son geniales para redactar, resumir, ayuda con código y RAG, pero los mayores modelos alojados siguen por delante en el razonamiento más difícil y el contexto más largo.
  • Licencias: los modelos tienen sus propias licencias - respétalas para uso comercial.

El cambio es claro: Ollama da privacidad, coste nulo por token y sin conexión; la nube da capacidad máxima. Para el lado de la nube, consulta Cursor vs Copilot.

En resumen

Ollama es la forma más sencilla de ejecutar LLM en local en 2026: un comando, muchos modelos abiertos, una API local y privacidad total porque nada sale de tu máquina. No igualará la frontera absoluta de los modelos alojados en las tareas más difíciles, pero para chat privado, ayuda con código, RAG sobre tus archivos y uso sin conexión, es realmente excelente - y gratis. Si la IA local y privada es tu objetivo, Ollama es el punto de partida.

Para ir más allá, combina Ollama con el modelo adecuado en el mejor LLM local para programar, y entiende por qué mantener la inferencia local importa en soberanía de datos.

Guía editorial basada en las funciones documentadas de Ollama (runtime de modelos local, CLI, API REST en localhost, modelos abiertos compatibles) y los compromisos documentados entre LLM locales y alojados. Indicamos con claridad que los modelos locales quedan por detrás de los mayores alojados en las tareas más difíciles. Ninguna relación comercial influye en esta guía.

Guías relacionadas: Seguridad de Agentes de IA.

Foto: Unsplash (source)

También disponible en

FAQ

¿Qué es Ollama?
Ollama es una herramienta libre y de código abierto que permite descargar y ejecutar grandes modelos de lenguaje (LLM) en local en tu ordenador con un solo comando. Agrupa los pesos del modelo, la configuración y un runtime para que «ollama run llama3.2» funcione directamente - sin cuenta en la nube, sin clave API, sin datos que salgan de tu máquina. Funciona en macOS, Linux y Windows, expone una API REST local para las apps y admite muchos modelos abiertos (Llama, Qwen, Mistral, Gemma, DeepSeek y más). Piénsalo como la entrada más sencilla a la IA local.
¿Cómo instalo y uso Ollama?
Descarga el instalador para tu sistema desde el sitio oficial (o usa el script de instalación de Linux), luego en una terminal ejecuta «ollama run <modelo>», por ejemplo «ollama run qwen2.5» - Ollama descarga el modelo en el primer arranque y te abre un chat. Otros comandos clave: «ollama pull <modelo>» para traer un modelo, «ollama list» para ver los instalados y «ollama serve» que ejecuta la API local. Es deliberadamente mínimo: un comando para chatear, uno para traer, uno para servir.
¿Ollama tiene API?
Sí. Ollama ejecuta una API REST local (por defecto en http://localhost:11434) que apps y scripts pueden llamar para generar texto, chatear o crear embeddings - así puedes construir pipelines RAG, asistentes de editor y chatbots por completo en el dispositivo. Muchas herramientas se integran de fábrica, incluida la extensión Continue para VS Code/JetBrains. Como el punto de acceso es local, tus prompts y datos nunca salen de tu máquina salvo que expongas el puerto deliberadamente.
¿Ollama es privado y gratis?
Sí en ambos. Ollama es de código abierto y gratis, y ejecuta los modelos por completo en tu hardware, así que tus prompts y documentos se quedan en local - nada se envía a una API de terceros. Eso lo hace una opción fuerte para trabajo sensible o propietario. Dos salvedades: mantén la API ligada a localhost (no 0.0.0.0) para que no quede expuesta en tu red, y recuerda que los modelos tienen sus propias licencias a respetar para uso comercial.
¿Ollama es lo bastante bueno frente a ChatGPT o Claude?
Para muchas tareas, sí - pero con honestidad, no en la frontera absoluta. Los modelos locales que ejecutas con Ollama (clase 7B–70B) son excelentes para redactar, resumir, ayuda con código, RAG sobre tus documentos y uso sin conexión/privado. Los mayores modelos alojados siguen por delante en el razonamiento más difícil y el contexto más largo. El cambio es claro: Ollama da privacidad, coste nulo por token y capacidad sin conexión; la nube da capacidad máxima. Muchos usan ambos.