ai-coding

LLM local y privacidad: ejecuta la IA en local para que tus datos nunca salgan (2026)

PrivSec Lab29 de junio de 20266 min de lectura

Un procesador AMD Ryzen instalado en el socket de una placa base

Ejecutar un LLM en local significa que tus prompts y datos nunca salen de tu máquina - a diferencia de ChatGPT, Claude o Gemini, donde la entrada se envía a los servidores del proveedor. Qué modelos open-weight y qué herramientas elegir para la privacidad, el hardware que necesitas y los compromisos honestos frente a la nube.

Si quieres usar la IA sin que tus prompts salgan nunca de tu ordenador, un LLM local es la respuesta. Ejecutar un gran modelo de lenguaje en tu propia máquina significa procesar tu entrada en el dispositivo y no enviarla nunca a la nube - lo contrario de ChatGPT, Claude o Gemini. Esta guía explica por qué lo local es más privado, qué herramientas y modelos open-weight elegir para la privacidad, el hardware que necesitas y los compromisos honestos.

La respuesta corta

Ejecuta el modelo en local y tus datos se quedan contigo. Herramientas como Ollama o llama.cpp cargan un modelo open-weight en tu hardware y hacen todo el procesamiento ahí - sin cuenta, sin subida, sin conexión. Con los chatbots en la nube, cada prompt se transmite a los servidores del proveedor. Para conversaciones privadas - legal, médico, código propietario, notas personales - la inferencia local elimina por completo esa exposición.

Un procesador AMD Ryzen instalado en el socket de una placa base

Por qué lo local es más privado que ChatGPT o la nube

Con un servicio en la nube, tu prompt - y todo lo que pegas en él - viaja por la red hasta los servidores del proveedor para procesarse. Salvo que te hayas excluido, esa entrada puede usarse para entrenar futuros modelos. Además necesitas una cuenta, y los datos se conservan en la infraestructura de un tercero.

Un modelo local invierte todo eso:

Nada sale del dispositivo. Tus prompts y documentos se procesan en tu propia CPU/GPU.
Sin cuenta, sin conexión. Trae el modelo una vez y úsalo sin conexión a internet.
Sin entrenamiento con tus datos. El modelo es un archivo estático; la inferencia no envía tu entrada a ningún sitio.

Es la opción natural para todo lo confidencial - y por eso quienes usan Ollama recurren a ello en el trabajo sensible.

Las herramientas para ejecutar un modelo en local

No ejecutas los pesos a mano - lo hace un runtime por ti:

Ollama - el CLI más sencillo. Un comando (ollama run llama3.1) descarga y ejecuta un modelo. Código abierto, sin telemetría.
LM Studio - una interfaz gráfica amable para quien prefiere hacer clic antes que la terminal.
llama.cpp - el motor ligero de código abierto sobre el que se construyen muchas herramientas; control máximo.
GPT4All y Jan - otras apps de escritorio que agrupan modelos e interfaz de chat.

Ollama y llama.cpp son de código abierto y no hacen «phone home», lo que los convierte en las opciones más seguras para la privacidad. Para un recorrido completo, consulta qué es Ollama.

Qué modelos open-weight elegir para la privacidad

Cualquier modelo open-weight que ejecutes en local es privado - la inferencia ocurre en tu máquina. La verdadera elección va de capacidad frente a lo que tu hardware puede contener. Las familias sólidas que funcionan en local sin telemetría:

Modelo	Tamaño	RAM típica (4 bits)	Bueno para
Mistral 7B	7B	~6–8 GB	Portátiles ligeros, uso diario rápido
Llama 3.1 8B	8B	~6–8 GB	Mejor equilibrio en hardware de consumo
Gemma 2 (Google)	9B / 27B	~8 GB / ~20 GB	Redacción de calidad, resúmenes
Qwen 2.5	14B / 32B	~12 GB / ~24 GB	Más capaz, necesita más VRAM
Phi (Microsoft)	pequeño	~4–6 GB	Máquinas muy pequeñas
DeepSeek	variable	variable	Pesos abiertos orientados al razonamiento

Elección práctica: en un portátil típico, Llama 3.1 8B o Mistral 7B cuantizado a 4 bits es el punto óptimo. Con una GPU más potente, Qwen 2.5 14B/32B o Gemma 2 27B dan más capacidad sin dejar de funcionar por completo sin conexión.

Hardware: qué necesitas (y la cuantización)

Los requisitos escalan con el número de parámetros del modelo:

Pequeños (3–8B): funcionan en un portátil moderno con 8 a 16 GB de RAM, en CPU o en una GPU modesta.
Grandes (70B): necesitan una GPU potente (24 GB+ de VRAM) o van lentos.

La palanca que lo hace práctico es la cuantización - almacenar los pesos del modelo en menor precisión, normalmente a 4 bits, lo que recorta mucho las necesidades de memoria con una pérdida de calidad pequeña. Por eso un modelo de 8B cabe en unos 6 a 8 GB en lugar de mucho más. Empieza con un modelo pequeño cuantizado, observa el rendimiento y sube de nivel solo si tu hardware lo permite.

Primer plano de una placa de circuito y su chip procesador central

Los compromisos honestos

Lo local es más privado, pero no está libre de compromisos:

Menos capaz. Los modelos locales de 7–32B quedan por detrás de los modelos de frontera en la nube (GPT-5, Claude) en el razonamiento más difícil y el contexto más largo.
Más lento. En hardware de consumo, la generación es más lenta que una API alojada respondiendo desde un centro de datos.
Gestionas las actualizaciones. Traer nuevas versiones de modelos y mantener tu herramienta al día depende de ti.

Para trabajo privado, sensible o sin conexión, el cambio suele merecer la pena. Para capacidad máxima en un problema difícil puntual, la nube sigue por delante - mucha gente usa ambos. Si tu objetivo es mantener los datos en el dispositivo, consulta IA y privacidad de datos.

El matiz: asegúrate de que la herramienta no hace «phone home»

La privacidad de lo «local» depende de que la herramienta no transmita nada, no solo del modelo. Ollama y llama.cpp son de código abierto y no envían datos de uso. Algunas apps con interfaz gráfica tienen telemetría opcional - revisa los ajustes y desactívala. Descargar los pesos desde Hugging Face es normal y no supone problema; es una transferencia única, y la inferencia se queda en local. Verifica el runtime, y tus prompts realmente no salen nunca de la máquina.

En resumen

Un LLM local es la forma más privada de usar la IA: tus datos se quedan en tu dispositivo, funciona sin conexión, sin cuenta y sin entrenamiento con tu entrada. Elige un modelo open-weight (Llama 3.1 8B o Mistral 7B para empezar), ejecútalo con Ollama o llama.cpp, usa cuantización a 4 bits para encajar en tu hardware y verifica que no haya telemetría. No igualará a los modelos de frontera en la nube en las tareas más difíciles - pero para trabajo confidencial, ese cambio merece la pena. Para el mejor modelo con el que combinarlo, consulta el mejor LLM local para programar.

Para ir más allá, aprende el runtime en qué es Ollama, elige un modelo en el mejor LLM local para programar, y entiende por qué importa que sea en el dispositivo en IA y privacidad de datos.

Guía editorial basada en el comportamiento documentado de los runtimes de LLM locales (inferencia en el dispositivo, sin transmisión por red) frente a los chatbots en la nube (entrada enviada a los servidores del proveedor, posible uso para entrenamiento salvo exclusión), los efectos de memoria documentados de la cuantización a 4 bits y la brecha de capacidad documentada entre modelos open-weight locales y los mayores modelos alojados. Indicamos con claridad que los modelos locales quedan por detrás de la frontera en las tareas más difíciles y que algunas apps con interfaz gráfica llevan telemetría opcional. Ninguna relación comercial influye en esta guía.

Guías relacionadas: ¿Qué es Ollama?

Foto: Unsplash (source)

También disponible en

EN FR DE IT PT

FAQ

¿Un LLM local es realmente más privado que ChatGPT?

Sí, por diseño. Cuando ejecutas un modelo en local con una herramienta como Ollama o llama.cpp, tus prompts y cualquier documento que pegues se procesan por completo en tu hardware - nada sale a la red. Con servicios en la nube como ChatGPT, Claude o Gemini, tu entrada se transmite a los servidores del proveedor para procesarse y, salvo que te excluyas, puede usarse para mejorar sus modelos. La inferencia local elimina por completo esa exposición: sin cuenta, sin subida y funciona sin conexión. El único matiz está en la herramienta, no en el modelo - los runtimes de código abierto como Ollama y llama.cpp no hacen «phone home», pero algunas apps con interfaz gráfica tienen telemetría opcional que conviene revisar en los ajustes.

¿Qué LLM local es el mejor para la privacidad?

Para la privacidad, cualquier modelo open-weight que ejecutes con Ollama o llama.cpp es privado, porque la inferencia ocurre en tu máquina - la elección va en realidad de capacidad frente a tu hardware. Un buen equilibrio en hardware de consumo es Llama 3.1 8B o Mistral 7B, cuantizados a 4 bits, que funcionan con holgura en un portátil moderno con 8 a 16 GB de RAM. Si tienes una GPU más potente con más VRAM, Qwen 2.5 14B/32B o Gemma 2 27B son más capaces sin dejar de funcionar por completo sin conexión. Todos son modelos open-weight sin telemetría propia.

¿Qué hardware necesito para ejecutar un LLM en local?

Depende del tamaño del modelo. Los modelos pequeños de 3 a 8B funcionan en un portátil moderno con 8 a 16 GB de RAM, en CPU o en una GPU modesta. Los modelos grandes como 70B necesitan una GPU potente (24 GB+ de VRAM) o van lentos. La cuantización - normalmente a 4 bits - reduce mucho la huella de memoria de un modelo, lo que hace prácticos los modelos de 7–8B en máquinas de uso diario. Apple Silicon con memoria unificada va bien. Empieza pequeño, observa el rendimiento y sube de nivel si tu hardware lo permite.

¿Los modelos locales se entrenan con mis datos?

No. Los modelos open-weight que descargas son archivos estáticos - hacer inferencia con ellos no envía tus prompts a ningún sitio ni se entrena con tu entrada. Esa es la ventaja de privacidad fundamental frente a los servicios en la nube, donde tus conversaciones pueden conservarse y usarse para mejorar el modelo salvo que te excluyas. Descargar los pesos desde un hub como Hugging Face es una transferencia única; después, cada prompt que escribes se queda en tu dispositivo. Solo asegúrate de que el runtime o la app que uses no transmita datos de uso.

¿Qué desventajas tiene ejecutar un LLM en local?

Con honestidad, algunas. Los modelos locales son más pequeños y menos capaces que los modelos de frontera en la nube (GPT-5, Claude) en el razonamiento más difícil y el contexto más largo. Son más lentos en hardware de consumo que una API alojada respondiendo desde un centro de datos. Y gestionas tus propias actualizaciones - traer nuevas versiones de modelos y mantener tu herramienta al día. Para trabajo privado, sensible o sin conexión, el cambio suele merecer la pena; para capacidad máxima en un problema difícil, la nube sigue por delante. Mucha gente usa ambos según la tarea.

Investigación relacionada

Una persona trabajando en un ordenador portátil en un escritorio

ai-coding

Windows 11 Copilot ahora puede leer el hardware de tu PC: cómo funciona 'PC insights'

Microsoft está probando 'PC insights' para la app Copilot de Windows 11: pregúntale por tu RAM, almacenamiento, GPU o batería y lee el estado de tu equipo. Qué hace, cómo funcionan los permisos y el compromiso honesto de privacidad.

PrivSec Lab·15 jul 2026·4 min de lectura

Un ordenador portátil que muestra código en el escritorio de un desarrollador, junto a una taza de café

ai-coding

ChatGPT Work de OpenAI: el agente autónomo creado para hacer tu trabajo (GPT-5.6)

OpenAI lanzó ChatGPT Work el 9 de julio de 2026, un agente autónomo impulsado por GPT-5.6 que reúne el contexto de tus aplicaciones, divide una tarea en pasos y entrega documentos, hojas de cálculo y código terminados. Qué hace, cómo encaja en la carrera de los agentes y las reservas honestas.

PrivSec Lab·11 jul 2026·4 min de lectura

Primer plano de codigo de programacion de colores mostrado en una pantalla

ai-coding

Muse Spark 1.1 de Meta: un nuevo modelo de codigo IA barato - que debe sopesar un dev

Meta lanzo Muse Spark 1.1 y su primera API de pago para competir con Anthropic y OpenAI. El precio, los socios, el giro a pesos cerrados y una mirada honesta a que sopesar antes de cambiar de herramienta.

PrivSec Lab·10 jul 2026·3 min de lectura