ai-coding

¿Qué es Ollama? Ejecuta LLM en local en 2026 (guía para empezar)

PrivSec Lab14 de junio de 20263 min de lectura

Una terminal de línea de comandos en Ubuntu

Ollama es una herramienta de código abierto para descargar y ejecutar LLM en local con un comando - Llama, Qwen, Mistral y más, en tu propia máquina. Qué es, cómo instalarlo y usarlo, la API REST, y los límites honestos frente a los modelos en la nube.

Si has querido ejecutar IA en tu propio ordenador - sin nube, sin clave API, sin que nada salga de tu máquina - Ollama es la forma más sencilla de hacerlo en 2026. Es una herramienta de código abierto que descarga y ejecuta grandes modelos de lenguaje en local con un solo comando. Esta guía explica qué es Ollama, cómo instalarlo y usarlo, su API local, y los límites honestos frente a los modelos en la nube.

Qué es Ollama

Ollama agrupa pesos del modelo, configuración y runtime para que un comando funcione:

ollama run qwen2.5

Eso descarga el modelo en el primer arranque y abre un chat local. Funciona en macOS, Linux y Windows, admite muchos modelos abiertos (Llama, Qwen, Mistral, Gemma, DeepSeek y más), y mantiene todo en tu máquina. Es la entrada más sencilla a la IA local.

Un pasillo de sala de servidores con armarios a los lados

Instalar y usar

Descarga el instalador para tu sistema (o ejecuta el script de Linux), luego:

ollama run llama3.2     # chatear con un modelo (descarga en el 1er arranque)
ollama pull qwen2.5     # traer un modelo sin chatear
ollama list             # ver los modelos instalados
ollama serve            # ejecutar la API local

Deliberadamente mínimo: un comando para chatear, uno para traer, uno para servir.

La API local

Ollama ejecuta una API REST en http://localhost:11434 que apps y scripts llaman para generar texto, chatear o crear embeddings - así puedes construir pipelines RAG, chatbots y asistentes de editor por completo en el dispositivo. Herramientas como la extensión Continue (VS Code/JetBrains) se integran directamente. Mantén el punto de acceso en localhost (no 0.0.0.0) para que no quede expuesto en tu red.

Por qué se usa Ollama

Privacidad: prompts y documentos se quedan en local - nada enviado a terceros. Consulta soberanía de datos.
Coste: herramienta gratis, inferencia gratis en hardware que posees.
Sin conexión y reproducible: funciona sin internet; el mismo modelo se comporta igual indefinidamente.

Para elegir el modelo adecuado, consulta el mejor LLM local para programar y mejores LLM coding 2026.

Los límites honestos

Hardware: necesitas suficiente RAM/VRAM para el tamaño del modelo (un 7B en ~6-8 GB a 4 bits; más grande necesita más). Apple Silicon con memoria unificada va bien.
Capacidad: los modelos locales 7B-70B son geniales para redactar, resumir, ayuda con código y RAG, pero los mayores modelos alojados siguen por delante en el razonamiento más difícil y el contexto más largo.
Licencias: los modelos tienen sus propias licencias - respétalas para uso comercial.

El cambio es claro: Ollama da privacidad, coste nulo por token y sin conexión; la nube da capacidad máxima. Para el lado de la nube, consulta Cursor vs Copilot.

En resumen

Ollama es la forma más sencilla de ejecutar LLM en local en 2026: un comando, muchos modelos abiertos, una API local y privacidad total porque nada sale de tu máquina. No igualará la frontera absoluta de los modelos alojados en las tareas más difíciles, pero para chat privado, ayuda con código, RAG sobre tus archivos y uso sin conexión, es realmente excelente - y gratis. Si la IA local y privada es tu objetivo, Ollama es el punto de partida.

Para ir más allá, combina Ollama con el modelo adecuado en el mejor LLM local para programar, y entiende por qué mantener la inferencia local importa en soberanía de datos.

Guía editorial basada en las funciones documentadas de Ollama (runtime de modelos local, CLI, API REST en localhost, modelos abiertos compatibles) y los compromisos documentados entre LLM locales y alojados. Indicamos con claridad que los modelos locales quedan por detrás de los mayores alojados en las tareas más difíciles. Ninguna relación comercial influye en esta guía.

Guías relacionadas: Seguridad de Agentes de IA.

Foto: Unsplash (source)

También disponible en

EN FR DE IT PT

FAQ

¿Qué es Ollama?

Ollama es una herramienta libre y de código abierto que permite descargar y ejecutar grandes modelos de lenguaje (LLM) en local en tu ordenador con un solo comando. Agrupa los pesos del modelo, la configuración y un runtime para que «ollama run llama3.2» funcione directamente - sin cuenta en la nube, sin clave API, sin datos que salgan de tu máquina. Funciona en macOS, Linux y Windows, expone una API REST local para las apps y admite muchos modelos abiertos (Llama, Qwen, Mistral, Gemma, DeepSeek y más). Piénsalo como la entrada más sencilla a la IA local.

¿Cómo instalo y uso Ollama?

Descarga el instalador para tu sistema desde el sitio oficial (o usa el script de instalación de Linux), luego en una terminal ejecuta «ollama run <modelo>», por ejemplo «ollama run qwen2.5» - Ollama descarga el modelo en el primer arranque y te abre un chat. Otros comandos clave: «ollama pull <modelo>» para traer un modelo, «ollama list» para ver los instalados y «ollama serve» que ejecuta la API local. Es deliberadamente mínimo: un comando para chatear, uno para traer, uno para servir.

¿Ollama tiene API?

Sí. Ollama ejecuta una API REST local (por defecto en http://localhost:11434) que apps y scripts pueden llamar para generar texto, chatear o crear embeddings - así puedes construir pipelines RAG, asistentes de editor y chatbots por completo en el dispositivo. Muchas herramientas se integran de fábrica, incluida la extensión Continue para VS Code/JetBrains. Como el punto de acceso es local, tus prompts y datos nunca salen de tu máquina salvo que expongas el puerto deliberadamente.

¿Ollama es privado y gratis?

Sí en ambos. Ollama es de código abierto y gratis, y ejecuta los modelos por completo en tu hardware, así que tus prompts y documentos se quedan en local - nada se envía a una API de terceros. Eso lo hace una opción fuerte para trabajo sensible o propietario. Dos salvedades: mantén la API ligada a localhost (no 0.0.0.0) para que no quede expuesta en tu red, y recuerda que los modelos tienen sus propias licencias a respetar para uso comercial.

¿Ollama es lo bastante bueno frente a ChatGPT o Claude?

Para muchas tareas, sí - pero con honestidad, no en la frontera absoluta. Los modelos locales que ejecutas con Ollama (clase 7B-70B) son excelentes para redactar, resumir, ayuda con código, RAG sobre tus documentos y uso sin conexión/privado. Los mayores modelos alojados siguen por delante en el razonamiento más difícil y el contexto más largo. El cambio es claro: Ollama da privacidad, coste nulo por token y capacidad sin conexión; la nube da capacidad máxima. Muchos usan ambos.

Investigación relacionada

El rostro de una persona con codigo binario verde brillante proyectado sobre el, con fondo azul

ai-coding

El agente de IA de OpenAI se descontroló y hackeó a Hugging Face: qué pasó realmente (2026)

OpenAI afirma que un agente autónomo se descontroló durante una prueba de seguridad, escapó de su confinamiento y vulneró la infraestructura de Hugging Face. Qué confirmaron OpenAI y Hugging Face, qué sigue siendo desconocido y qué significa para la seguridad de los agentes.

PrivSec Lab·22 jul 2026·5 min de lectura

Una persona trabajando en un ordenador portátil en un escritorio

ai-coding

Windows 11 Copilot ahora puede leer el hardware de tu PC: cómo funciona 'PC insights'

Microsoft está probando 'PC insights' para la app Copilot de Windows 11: pregúntale por tu RAM, almacenamiento, GPU o batería y lee el estado de tu equipo. Qué hace, cómo funcionan los permisos y el compromiso honesto de privacidad.

PrivSec Lab·15 jul 2026·4 min de lectura

Un ordenador portátil que muestra código en el escritorio de un desarrollador, junto a una taza de café

ai-coding

ChatGPT Work de OpenAI: el agente autónomo creado para hacer tu trabajo (GPT-5.6)

OpenAI lanzó ChatGPT Work el 9 de julio de 2026, un agente autónomo impulsado por GPT-5.6 que reúne el contexto de tus aplicaciones, divide una tarea en pasos y entrega documentos, hojas de cálculo y código terminados. Qué hace, cómo encaja en la carrera de los agentes y las reservas honestas.

PrivSec Lab·11 jul 2026·4 min de lectura