Ejecutar un modelo de código en tu propia máquina pasó de experimento de aficionado a un flujo de trabajo realmente práctico en 2026. El atractivo para un desarrollador consciente de la privacidad es directo: tu código propietario nunca sale del dispositivo, no hay factura por token, funciona sin conexión y toda la configuración es reproducible. El inconveniente es igual de directo — el mejor LLM local para programar es aquel, entre los modelos sólidos, que de verdad cabe en tu VRAM, no el que encabeza un ranking que no puedes ejecutar.
Esta guía ordena las opciones realistas según esa restricción, con el cálculo de VRAM concreto, la pila de runner y editor, y un relato honesto de dónde lo local sigue por detrás de la nube.
Por qué ejecutar un LLM de código en local
- Privacidad y control de la PI. Nada se envía a una API de terceros — sin registro del proveedor, sin riesgo de que tu código se retenga o se use para entrenamiento, sin exposición entre jurisdicciones. Para bases de código reguladas o propietarias, ese es todo el sentido. Consulta nuestra nota sobre soberanía de datos.
- Coste. Tras el hardware que ya posees, la inferencia es gratis. Los usuarios intensivos ahorran más.
- Sin conexión y reproducible. Funciona en un avión; los mismos pesos dan el mismo comportamiento indefinidamente, a diferencia de un modelo alojado que cambia en silencio.
El compromiso está en la capacidad y la comodidad — justo donde importa la comparación honesta de abajo.
La realidad de la VRAM (léelo primero)
El único número que decide tus opciones es la VRAM a tu cuantización. Regla de trabajo a 4 bits (Q4):
- ~0,6 a 0,8 GB de VRAM por cada mil millones de parámetros, más el sobrecoste del contexto.
- 7B → ~6–8 GB (portátiles y equipos clase RTX 3060/4060).
- 14B → ~10–12 GB.
- 32B → ~20–24 GB (RTX 4090; Apple Silicon con 32 GB+ de memoria unificada).
Apple M destaca aquí porque la GPU comparte la RAM del sistema — un Mac de 48–64 GB ejecuta modelos 32B que de otro modo exigirían una GPU dedicada de gama alta. Por debajo de 8 GB, quédate en 3B–7B.
La clasificación honesta 2026
Qwen2.5-Coder — el mejor codificador local todoterreno. Disponible de 0,5B a 32B, es el modelo a usar por defecto: compleción fill-in-the-middle sólida, amplia cobertura de lenguajes y buen razonamiento para su tamaño. El 7B cabe en GPU modestas; el 14B es el punto óptimo de una tarjeta de 12 GB; el 32B rivaliza con modelos mucho mayores cuando la memoria acompaña.
DeepSeek-Coder-V2 — la cobertura de lenguajes más amplia. Un codificador mixture-of-experts con excelente soporte multilenguaje. Las variantes grandes son pesadas, pero las opciones destiladas más pequeñas siguen siendo prácticas, y es una elección frecuente para bases de código políglotas.
Codestral — el mejor para compleción de baja latencia. El modelo de código de Mistral está afinado para un fill-in-the-middle rápido, lo que lo hace un excelente asistente de editor siempre activo más que un razonador tipo chat.
StarCoder2 / CodeLlama — alternativas sólidas y permisivas. Maduros, bien documentados y fáciles de ejecutar; útiles cuando la claridad de licencia o el ecosistema importan más que encabezar rankings.
Para comparaciones más amplias que incluyen la nube, consulta mejores LLM coding 2026 y mejores asistentes de código IA 2026.
La pila de runner + editor
- Runner — ejecutar el modelo: Ollama (el más sencillo), llama.cpp (el de más control), LM Studio (interfaz gráfica), vLLM (rendimiento/servidor). La mayoría de configuraciones de consumo usan pesos cuantizados GGUF.
- Integración con el editor — Continue (VS Code / JetBrains) apunta el editor a un punto local; Tabby ejecuta un servidor de compleción autoalojado; algunos asistentes ofrecen modos sin conexión.
- Ligar a localhost. Mantén el runner en
127.0.0.1, no en0.0.0.0, y desactiva la telemetría de las extensiones — consulta detección de fugas de red para verificar que nada se escapa.
La pila habitual 2026: Ollama sirviendo el modelo + Continue conectado al editor.
La brecha honesta frente a la nube
Los modelos locales no igualan a los mejores modelos alojados (Claude, GPT) en el razonamiento multiarchivo más difícil y la refactorización de contexto largo — afirmar lo contrario es la exageración más común del campo. Lo que cambias por esa capacidad de frontera: privacidad, coste marginal nulo, uso sin conexión y reproducibilidad. El flujo pragmático es híbrido: un modelo local para compleción, boilerplate, refactors pequeños, revisión de código y todo lo que toque código sensible; un modelo alojado para el raro problema de arquitectura genuinamente arduo. Elige por tarea, no por ideología.
Para las comparaciones de herramientas de desarrollo que rodean este tema, consulta alternativas a GitHub Copilot 2026 y alternativas a Cursor 2026. Para la lógica de privacidad tras la inferencia local, soberanía de datos cubre dónde se procesan tus datos y por qué importa.
Análisis editorial basado en los tamaños de parámetros documentados de los modelos, el comportamiento publicado de la cuantización y las capacidades documentadas de los runners e integraciones de editor. Las cifras de VRAM son reglas prácticas con cuantización de 4 bits, no garantías del fabricante. Indicamos con claridad dónde los modelos locales quedan por detrás de los alojados en lugar de sobrevender una paridad.