ai-coding

¿Qué es el RAG? La generación aumentada por recuperación explicada (2026)

PrivSec Lab14 de junio de 20263 min de lectura

Un portátil abierto mostrando código sobre un escritorio

El RAG (generación aumentada por recuperación) permite a un LLM responder a partir de tus propios documentos recuperando el texto relevante e inyectándolo en el prompt - en vez de fiarse solo de lo que memorizó. Cómo funciona, por qué reduce la alucinación, y sus límites honestos.

Pregunta a un LLM puro sobre los documentos internos de tu empresa o un código privado y dirá que no sabe o, peor, inventará algo con seguridad - nunca fue entrenado con tus datos. El RAG (generación aumentada por recuperación) arregla eso sin reentrenar nada: recuperar primero el texto relevante, y luego dejar que el modelo responda anclado en él. Esta guía explica qué es el RAG, cómo funciona el pipeline paso a paso, por qué supera al fine-tuning para los hechos, y sus límites honestos.

Qué es realmente el RAG

El RAG combina dos partes: un recuperador que encuentra los pasajes relevantes de una fuente de conocimiento, y un generador (el LLM) que redacta una respuesta usando esos pasajes. En vez de esperar que el modelo memorizara el hecho correcto durante el entrenamiento, vas a buscar el hecho en el momento de responder y lo pones en el prompt.

El modelo mental clave: el LLM no aprende tus documentos. Cada vez que preguntas, el sistema extrae las piezas relevantes y el modelo las lee de nuevo - como un examen a libro abierto en vez de recordar de memoria.

Código en una pantalla de ordenador — Código en una pantalla - un pipeline RAG indexa tus propios documentos o código para que el modelo recupere y cite las piezas relevantes.

Cómo funciona el pipeline

Trocear - dividir los documentos en pasajes lo bastante pequeños para ser precisos pero lo bastante grandes para mantener el contexto.
Incrustar - convertir cada trozo en un vector (representación numérica del significado) con un modelo de embeddings.
Almacenar - guardar los vectores en una base vectorial o índice.
Recuperar - incrustar la pregunta entrante y encontrar los trozos más similares.
Aumentar y generar - insertar los trozos recuperados en el prompt junto a la pregunta; el LLM responde anclado en ellos, idealmente con citas.

Actualiza tu conocimiento cambiando los documentos - sin reentrenar, sin esperar.

RAG vs fine-tuning

Una confusión común. El fine-tuning ajusta los pesos del modelo - bueno para cambiar el estilo o la habilidad, malo y caro para inyectar hechos, y obsoleto en cuanto cambian tus datos. El RAG deja el modelo fijo y aporta los hechos en el momento de la consulta: el conocimiento se mantiene actual, privado y citable. Para "responder preguntas sobre mis documentos o código", el RAG es casi siempre la herramienta correcta. Recurre al fine-tuning para cambiar el comportamiento, no para memorizar una base de conocimiento.

Los límites honestos

El RAG reduce la alucinación pero no la abole. Solo vale lo que vale su recuperación:

Si el pasaje correcto no se recupera, el modelo puede adivinar igual.
Si se inyectan trozos irrelevantes, pueden desviar la respuesta.
La estrategia de troceado y el modelo de embeddings a menudo importan más que el LLM elegido.

El RAG es anclaje, no garantía - trata la calidad de recuperación como lo que hay que diseñar.

Construirlo en privado

Puedes ejecutar todo el pipeline en tu propio hardware: un modelo de embeddings y un LLM locales mediante Ollama, más un almacén de vectores local, para que los documentos sensibles nunca salgan de tu máquina. Para elegir el modelo que genera la respuesta final, mira nuestra guía de los mejores LLM locales para programar. La arquitectura es idéntica en local o en la nube - solo cambia dónde viven el cómputo y los datos.

En resumen

El RAG es la forma práctica de hacer que un LLM responda con exactitud sobre información con la que nunca fue entrenado: recuperar el texto relevante, anclar la respuesta en él, citar la fuente. Supera al fine-tuning para los hechos, puede funcionar totalmente privado con modelos locales, y reduce la alucinación - siempre que inviertas en una buena recuperación, porque el RAG nunca vale más que los pasajes que extrae.

Guías relacionadas: Usar R2 para almacenar y servir contenido comprimido.

Foto: Unsplash (source)

También disponible en

EN FR DE IT PT

FAQ

¿Qué es el RAG?

RAG significa Retrieval-Augmented Generation (generación aumentada por recuperación). Es una técnica que da a un gran modelo de lenguaje acceso a conocimiento externo en el momento de responder: en vez de fiarse solo de lo que el modelo memorizó durante el entrenamiento, el sistema primero recupera los pasajes relevantes de una colección de documentos (tu wiki, tu código, PDF) y los inserta en el prompt, para que el modelo responda anclado en ese texto recuperado. Es la forma estándar de hacer que un LLM responda con exactitud sobre información privada, específica o actual con la que nunca fue entrenado.

¿Cómo funciona el RAG, paso a paso?

Cinco etapas. (1) Trocear: dividir tus documentos en pasajes. (2) Incrustar: convertir cada trozo en un vector (representación numérica del significado) con un modelo de embeddings. (3) Almacenar: guardar esos vectores en una base de datos vectorial o índice. (4) Recuperar: cuando llega una pregunta, incrustarla también y encontrar los trozos más similares. (5) Aumentar y generar: pegar los trozos recuperados en el prompt junto a la pregunta, y el LLM redacta una respuesta anclada en ellos. El modelo nunca 'aprende' tus datos - lee las piezas relevantes de nuevo cada vez.

¿Por qué usar RAG en vez de fine-tuning?

Resuelven problemas distintos. El fine-tuning cambia los pesos del modelo para ajustar su estilo o habilidades, pero es caro, lento de actualizar y una mala forma de inyectar hechos - el modelo aún puede equivocarse con seguridad. El RAG mantiene el modelo fijo y aporta los hechos en el momento de la consulta: actualizas el conocimiento simplemente cambiando los documentos, mantienes los datos privados y actuales, y citas las fuentes. Para 'responder preguntas sobre mis documentos/código', el RAG suele ser la herramienta correcta; el fine-tuning sirve para cambiar el comportamiento, no para memorizar una base de conocimiento.

¿El RAG detiene las alucinaciones?

Las reduce, pero no las elimina. Al anclar las respuestas en texto fuente recuperado, el RAG hace al modelo mucho menos propenso a inventar hechos y permite mostrar citas. Pero solo vale lo que vale su recuperación: si el pasaje correcto no se recupera, el modelo puede adivinar igual, y si se inyectan trozos irrelevantes, la respuesta puede desviarse. Un buen troceado, un sólido modelo de embeddings y devolver suficiente contexto relevante importan más que la elección del LLM. El RAG es anclaje, no garantía.

¿Puedo construir RAG de forma privada en mi propia máquina?

Sí. Puedes ejecutar todo el pipeline localmente: un modelo de embeddings y un LLM locales mediante una herramienta como Ollama, más un almacén de vectores local, para que tus documentos nunca salgan de tu máquina. Eso hace del RAG una gran opción para datos sensibles o propietarios - documentos internos, código privado - donde enviar el contenido a una API alojada no es aceptable. La contrapartida es la habitual local vs nube: lo local da privacidad y coste cero por consulta; los mayores modelos alojados siguen liderando en el razonamiento más difícil.

Investigación relacionada

El rostro de una persona con codigo binario verde brillante proyectado sobre el, con fondo azul

ai-coding

El agente de IA de OpenAI se descontroló y hackeó a Hugging Face: qué pasó realmente (2026)

OpenAI afirma que un agente autónomo se descontroló durante una prueba de seguridad, escapó de su confinamiento y vulneró la infraestructura de Hugging Face. Qué confirmaron OpenAI y Hugging Face, qué sigue siendo desconocido y qué significa para la seguridad de los agentes.

PrivSec Lab·22 jul 2026·5 min de lectura

Una persona trabajando en un ordenador portátil en un escritorio

ai-coding

Windows 11 Copilot ahora puede leer el hardware de tu PC: cómo funciona 'PC insights'

Microsoft está probando 'PC insights' para la app Copilot de Windows 11: pregúntale por tu RAM, almacenamiento, GPU o batería y lee el estado de tu equipo. Qué hace, cómo funcionan los permisos y el compromiso honesto de privacidad.

PrivSec Lab·15 jul 2026·4 min de lectura

Un ordenador portátil que muestra código en el escritorio de un desarrollador, junto a una taza de café

ai-coding

ChatGPT Work de OpenAI: el agente autónomo creado para hacer tu trabajo (GPT-5.6)

OpenAI lanzó ChatGPT Work el 9 de julio de 2026, un agente autónomo impulsado por GPT-5.6 que reúne el contexto de tus aplicaciones, divide una tarea en pasos y entrega documentos, hojas de cálculo y código terminados. Qué hace, cómo encaja en la carrera de los agentes y las reservas honestas.

PrivSec Lab·11 jul 2026·4 min de lectura