Pregunta a un LLM puro sobre los documentos internos de tu empresa o un código privado y dirá que no sabe o, peor, inventará algo con seguridad — nunca fue entrenado con tus datos. El RAG (generación aumentada por recuperación) arregla eso sin reentrenar nada: recuperar primero el texto relevante, y luego dejar que el modelo responda anclado en él. Esta guía explica qué es el RAG, cómo funciona el pipeline paso a paso, por qué supera al fine-tuning para los hechos, y sus límites honestos.
Qué es realmente el RAG
El RAG combina dos partes: un recuperador que encuentra los pasajes relevantes de una fuente de conocimiento, y un generador (el LLM) que redacta una respuesta usando esos pasajes. En vez de esperar que el modelo memorizara el hecho correcto durante el entrenamiento, vas a buscar el hecho en el momento de responder y lo pones en el prompt.
El modelo mental clave: el LLM no aprende tus documentos. Cada vez que preguntas, el sistema extrae las piezas relevantes y el modelo las lee de nuevo — como un examen a libro abierto en vez de recordar de memoria.
Cómo funciona el pipeline
- Trocear — dividir los documentos en pasajes lo bastante pequeños para ser precisos pero lo bastante grandes para mantener el contexto.
- Incrustar — convertir cada trozo en un vector (representación numérica del significado) con un modelo de embeddings.
- Almacenar — guardar los vectores en una base vectorial o índice.
- Recuperar — incrustar la pregunta entrante y encontrar los trozos más similares.
- Aumentar y generar — insertar los trozos recuperados en el prompt junto a la pregunta; el LLM responde anclado en ellos, idealmente con citas.
Actualiza tu conocimiento cambiando los documentos — sin reentrenar, sin esperar.
RAG vs fine-tuning
Una confusión común. El fine-tuning ajusta los pesos del modelo — bueno para cambiar el estilo o la habilidad, malo y caro para inyectar hechos, y obsoleto en cuanto cambian tus datos. El RAG deja el modelo fijo y aporta los hechos en el momento de la consulta: el conocimiento se mantiene actual, privado y citable. Para "responder preguntas sobre mis documentos o código", el RAG es casi siempre la herramienta correcta. Recurre al fine-tuning para cambiar el comportamiento, no para memorizar una base de conocimiento.
Los límites honestos
El RAG reduce la alucinación pero no la abole. Solo vale lo que vale su recuperación:
- Si el pasaje correcto no se recupera, el modelo puede adivinar igual.
- Si se inyectan trozos irrelevantes, pueden desviar la respuesta.
- La estrategia de troceado y el modelo de embeddings a menudo importan más que el LLM elegido.
El RAG es anclaje, no garantía — trata la calidad de recuperación como lo que hay que diseñar.
Construirlo en privado
Puedes ejecutar todo el pipeline en tu propio hardware: un modelo de embeddings y un LLM locales mediante Ollama, más un almacén de vectores local, para que los documentos sensibles nunca salgan de tu máquina. Para elegir el modelo que genera la respuesta final, mira nuestra guía de los mejores LLM locales para programar. La arquitectura es idéntica en local o en la nube — solo cambia dónde viven el cómputo y los datos.
En resumen
El RAG es la forma práctica de hacer que un LLM responda con exactitud sobre información con la que nunca fue entrenado: recuperar el texto relevante, anclar la respuesta en él, citar la fuente. Supera al fine-tuning para los hechos, puede funcionar totalmente privado con modelos locales, y reduce la alucinación — siempre que inviertas en una buena recuperación, porque el RAG nunca vale más que los pasajes que extrae.