Pergunte a um LLM simples sobre os documentos internos da sua empresa ou uma base de código privada e ele dirá que não sabe ou, pior, inventará algo com confiança — nunca foi treinado com os seus dados. RAG (Geração Aumentada por Recuperação) é como se resolve isso sem re-treinar nada: recupere primeiro o texto relevante e depois deixe o modelo responder baseado nele. Este guia explica o que é RAG, como funciona o pipeline passo a passo, por que supera o ajuste fino para factos e os seus limites honestos.
O que é realmente o RAG
RAG combina duas partes: um recuperador que encontra passagens relevantes de uma fonte de conhecimento e um gerador (o LLM) que escreve uma resposta usando essas passagens. Em vez de esperar que o modelo tenha memorizado o facto certo durante o treino, você busca o facto no momento da resposta e coloca-o no prompt.
O modelo mental chave: o LLM não aprende os seus documentos. Cada vez que pergunta, o sistema puxa as peças relevantes e o modelo lê-as de novo — como um exame de livro aberto em vez de recordar da memória.
Como funciona o pipeline
- Dividir — dividir documentos em passagens pequenas o suficiente para serem precisas, mas grandes o suficiente para manter o contexto.
- Incorporar — transformar cada passagem num vetor (uma representação numérica de significado) com um modelo de incorporação.
- Armazenar — manter os vetores numa base de dados de vetores ou índice.
- Recuperar — incorporar a pergunta recebida e encontrar as passagens mais semelhantes.
- Aumentar e gerar — inserir as passagens recuperadas no prompt ao lado da pergunta; o LLM responde baseado nelas, idealmente com citações.
Atualize o seu conhecimento mudando os documentos — sem re-treino, sem espera.
RAG vs ajuste fino
Uma confusão comum. Ajuste fino ajusta os pesos do modelo — bom para mudar estilo ou habilidade, mau e caro para injetar factos, e obsoleto no momento em que os seus dados mudam. RAG mantém o modelo fixo e fornece factos no momento da consulta, para que o conhecimento permaneça atual, privado e citável. Para "responder a perguntas sobre os meus documentos ou código", RAG é quase sempre a ferramenta certa. Use ajuste fino para mudar comportamento, não para memorizar uma base de conhecimento.
Os limites honestos
RAG reduz alucinações, mas não as elimina. É apenas tão bom quanto a sua recuperação:
- Se a passagem certa não for recuperada, o modelo ainda pode adivinhar.
- Se passagens irrelevantes forem injetadas, podem induzir a resposta em erro.
- A estratégia de divisão e o modelo de incorporação muitas vezes importam mais do que qual LLM você usa.
RAG é fundamentação, não uma garantia — trate a qualidade da recuperação como algo a ser engenhado.
Construindo-o privadamente
Pode executar todo o pipeline no seu próprio hardware: um modelo de incorporação local e LLM através do Ollama, além de um armazenamento de vetores local, para que documentos sensíveis nunca saiam da sua máquina. Para escolher o modelo que gera a resposta final, veja o nosso guia para os melhores LLMs locais para codificação. A arquitetura é idêntica, quer a execute localmente ou na nuvem — apenas onde a computação e os dados residem muda.
A conclusão
RAG é a forma prática de fazer um LLM responder com precisão sobre informações nas quais nunca foi treinado: recuperar texto relevante, fundamentar a resposta nele, citar a fonte. Supera o ajuste fino para factos, pode ser executado totalmente privado com modelos locais e reduz alucinações — desde que invista numa boa recuperação, porque RAG é sempre tão forte quanto as passagens que recupera.


