Si quieres usar la IA sin que tus prompts salgan nunca de tu ordenador, un LLM local es la respuesta. Ejecutar un gran modelo de lenguaje en tu propia máquina significa procesar tu entrada en el dispositivo y no enviarla nunca a la nube — lo contrario de ChatGPT, Claude o Gemini. Esta guía explica por qué lo local es más privado, qué herramientas y modelos open-weight elegir para la privacidad, el hardware que necesitas y los compromisos honestos.
La respuesta corta
Ejecuta el modelo en local y tus datos se quedan contigo. Herramientas como Ollama o llama.cpp cargan un modelo open-weight en tu hardware y hacen todo el procesamiento ahí — sin cuenta, sin subida, sin conexión. Con los chatbots en la nube, cada prompt se transmite a los servidores del proveedor. Para conversaciones privadas — legal, médico, código propietario, notas personales — la inferencia local elimina por completo esa exposición.
Por qué lo local es más privado que ChatGPT o la nube
Con un servicio en la nube, tu prompt — y todo lo que pegas en él — viaja por la red hasta los servidores del proveedor para procesarse. Salvo que te hayas excluido, esa entrada puede usarse para entrenar futuros modelos. Además necesitas una cuenta, y los datos se conservan en la infraestructura de un tercero.
Un modelo local invierte todo eso:
- Nada sale del dispositivo. Tus prompts y documentos se procesan en tu propia CPU/GPU.
- Sin cuenta, sin conexión. Trae el modelo una vez y úsalo sin conexión a internet.
- Sin entrenamiento con tus datos. El modelo es un archivo estático; la inferencia no envía tu entrada a ningún sitio.
Es la opción natural para todo lo confidencial — y por eso quienes usan Ollama recurren a ello en el trabajo sensible.
Las herramientas para ejecutar un modelo en local
No ejecutas los pesos a mano — lo hace un runtime por ti:
- Ollama — el CLI más sencillo. Un comando (
ollama run llama3.1) descarga y ejecuta un modelo. Código abierto, sin telemetría. - LM Studio — una interfaz gráfica amable para quien prefiere hacer clic antes que la terminal.
- llama.cpp — el motor ligero de código abierto sobre el que se construyen muchas herramientas; control máximo.
- GPT4All y Jan — otras apps de escritorio que agrupan modelos e interfaz de chat.
Ollama y llama.cpp son de código abierto y no hacen «phone home», lo que los convierte en las opciones más seguras para la privacidad. Para un recorrido completo, consulta qué es Ollama.
Qué modelos open-weight elegir para la privacidad
Cualquier modelo open-weight que ejecutes en local es privado — la inferencia ocurre en tu máquina. La verdadera elección va de capacidad frente a lo que tu hardware puede contener. Las familias sólidas que funcionan en local sin telemetría:
| Modelo | Tamaño | RAM típica (4 bits) | Bueno para |
|---|---|---|---|
| Mistral 7B | 7B | ~6–8 GB | Portátiles ligeros, uso diario rápido |
| Llama 3.1 8B | 8B | ~6–8 GB | Mejor equilibrio en hardware de consumo |
| Gemma 2 (Google) | 9B / 27B | ~8 GB / ~20 GB | Redacción de calidad, resúmenes |
| Qwen 2.5 | 14B / 32B | ~12 GB / ~24 GB | Más capaz, necesita más VRAM |
| Phi (Microsoft) | pequeño | ~4–6 GB | Máquinas muy pequeñas |
| DeepSeek | variable | variable | Pesos abiertos orientados al razonamiento |
Elección práctica: en un portátil típico, Llama 3.1 8B o Mistral 7B cuantizado a 4 bits es el punto óptimo. Con una GPU más potente, Qwen 2.5 14B/32B o Gemma 2 27B dan más capacidad sin dejar de funcionar por completo sin conexión.
Hardware: qué necesitas (y la cuantización)
Los requisitos escalan con el número de parámetros del modelo:
- Pequeños (3–8B): funcionan en un portátil moderno con 8 a 16 GB de RAM, en CPU o en una GPU modesta.
- Grandes (70B): necesitan una GPU potente (24 GB+ de VRAM) o van lentos.
La palanca que lo hace práctico es la cuantización — almacenar los pesos del modelo en menor precisión, normalmente a 4 bits, lo que recorta mucho las necesidades de memoria con una pérdida de calidad pequeña. Por eso un modelo de 8B cabe en unos 6 a 8 GB en lugar de mucho más. Empieza con un modelo pequeño cuantizado, observa el rendimiento y sube de nivel solo si tu hardware lo permite.
Los compromisos honestos
Lo local es más privado, pero no está libre de compromisos:
- Menos capaz. Los modelos locales de 7–32B quedan por detrás de los modelos de frontera en la nube (GPT-5, Claude) en el razonamiento más difícil y el contexto más largo.
- Más lento. En hardware de consumo, la generación es más lenta que una API alojada respondiendo desde un centro de datos.
- Gestionas las actualizaciones. Traer nuevas versiones de modelos y mantener tu herramienta al día depende de ti.
Para trabajo privado, sensible o sin conexión, el cambio suele merecer la pena. Para capacidad máxima en un problema difícil puntual, la nube sigue por delante — mucha gente usa ambos. Si tu objetivo es mantener los datos en el dispositivo, consulta IA y privacidad de datos.
El matiz: asegúrate de que la herramienta no hace «phone home»
La privacidad de lo «local» depende de que la herramienta no transmita nada, no solo del modelo. Ollama y llama.cpp son de código abierto y no envían datos de uso. Algunas apps con interfaz gráfica tienen telemetría opcional — revisa los ajustes y desactívala. Descargar los pesos desde Hugging Face es normal y no supone problema; es una transferencia única, y la inferencia se queda en local. Verifica el runtime, y tus prompts realmente no salen nunca de la máquina.
En resumen
Un LLM local es la forma más privada de usar la IA: tus datos se quedan en tu dispositivo, funciona sin conexión, sin cuenta y sin entrenamiento con tu entrada. Elige un modelo open-weight (Llama 3.1 8B o Mistral 7B para empezar), ejecútalo con Ollama o llama.cpp, usa cuantización a 4 bits para encajar en tu hardware y verifica que no haya telemetría. No igualará a los modelos de frontera en la nube en las tareas más difíciles — pero para trabajo confidencial, ese cambio merece la pena. Para el mejor modelo con el que combinarlo, consulta el mejor LLM local para programar.
Para ir más allá, aprende el runtime en qué es Ollama, elige un modelo en el mejor LLM local para programar, y entiende por qué importa que sea en el dispositivo en IA y privacidad de datos.
Guía editorial basada en el comportamiento documentado de los runtimes de LLM locales (inferencia en el dispositivo, sin transmisión por red) frente a los chatbots en la nube (entrada enviada a los servidores del proveedor, posible uso para entrenamiento salvo exclusión), los efectos de memoria documentados de la cuantización a 4 bits y la brecha de capacidad documentada entre modelos open-weight locales y los mayores modelos alojados. Indicamos con claridad que los modelos locales quedan por detrás de la frontera en las tareas más difíciles y que algunas apps con interfaz gráfica llevan telemetría opcional. Ninguna relación comercial influye en esta guía.
Guías relacionadas: ¿Qué es Ollama?


