alexi.sh Laboratório de Engenharia de IA

ai-coding

O que é RAG? Geração Aumentada por Recuperação Explicada (2026)

PrivSec Lab14 de junho de 20263 min de leitura

Um portátil aberto mostrando código numa secretária

RAG (Geração Aumentada por Recuperação) permite que um LLM responda a partir dos seus próprios documentos, recuperando texto relevante e inserindo-o no prompt - em vez de depender apenas do que memorizou. Como funciona, por que reduz alucinações e os seus limites honestos.

Pergunte a um LLM simples sobre os documentos internos da sua empresa ou uma base de código privada e ele dirá que não sabe ou, pior, inventará algo com confiança - nunca foi treinado com os seus dados. RAG (Geração Aumentada por Recuperação) é como se resolve isso sem re-treinar nada: recupere primeiro o texto relevante e depois deixe o modelo responder baseado nele. Este guia explica o que é RAG, como funciona o pipeline passo a passo, por que supera o ajuste fino para factos e os seus limites honestos.

O que é realmente o RAG

RAG combina duas partes: um recuperador que encontra passagens relevantes de uma fonte de conhecimento e um gerador (o LLM) que escreve uma resposta usando essas passagens. Em vez de esperar que o modelo tenha memorizado o facto certo durante o treino, você busca o facto no momento da resposta e coloca-o no prompt.

O modelo mental chave: o LLM não aprende os seus documentos. Cada vez que pergunta, o sistema puxa as peças relevantes e o modelo lê-as de novo - como um exame de livro aberto em vez de recordar da memória.

Código num ecrã de computador — Código num ecrã - um pipeline RAG indexa os seus próprios documentos ou base de código para que o modelo possa recuperar e citar as peças relevantes.

Como funciona o pipeline

Dividir - dividir documentos em passagens pequenas o suficiente para serem precisas, mas grandes o suficiente para manter o contexto.
Incorporar - transformar cada passagem num vetor (uma representação numérica de significado) com um modelo de incorporação.
Armazenar - manter os vetores numa base de dados de vetores ou índice.
Recuperar - incorporar a pergunta recebida e encontrar as passagens mais semelhantes.
Aumentar e gerar - inserir as passagens recuperadas no prompt ao lado da pergunta; o LLM responde baseado nelas, idealmente com citações.

Atualize o seu conhecimento mudando os documentos - sem re-treino, sem espera.

RAG vs ajuste fino

Uma confusão comum. Ajuste fino ajusta os pesos do modelo - bom para mudar estilo ou habilidade, mau e caro para injetar factos, e obsoleto no momento em que os seus dados mudam. RAG mantém o modelo fixo e fornece factos no momento da consulta, para que o conhecimento permaneça atual, privado e citável. Para "responder a perguntas sobre os meus documentos ou código", RAG é quase sempre a ferramenta certa. Use ajuste fino para mudar comportamento, não para memorizar uma base de conhecimento.

Os limites honestos

RAG reduz alucinações, mas não as elimina. É apenas tão bom quanto a sua recuperação:

Se a passagem certa não for recuperada, o modelo ainda pode adivinhar.
Se passagens irrelevantes forem injetadas, podem induzir a resposta em erro.
A estratégia de divisão e o modelo de incorporação muitas vezes importam mais do que qual LLM você usa.

RAG é fundamentação, não uma garantia - trate a qualidade da recuperação como algo a ser engenhado.

Construindo-o privadamente

Pode executar todo o pipeline no seu próprio hardware: um modelo de incorporação local e LLM através do Ollama, além de um armazenamento de vetores local, para que documentos sensíveis nunca saiam da sua máquina. Para escolher o modelo que gera a resposta final, veja o nosso guia para os melhores LLMs locais para codificação. A arquitetura é idêntica, quer a execute localmente ou na nuvem - apenas onde a computação e os dados residem muda.

A conclusão

RAG é a forma prática de fazer um LLM responder com precisão sobre informações nas quais nunca foi treinado: recuperar texto relevante, fundamentar a resposta nele, citar a fonte. Supera o ajuste fino para factos, pode ser executado totalmente privado com modelos locais e reduz alucinações - desde que invista numa boa recuperação, porque RAG é sempre tão forte quanto as passagens que recupera.

Guias relacionados: Usar R2 para armazenar e servir conteúdo comprimido.

Photo: Unsplash (source)

Também disponível em

EN FR ES DE IT

FAQ

O que é RAG?

RAG significa Geração Aumentada por Recuperação. É uma técnica que dá a um modelo de linguagem grande acesso a conhecimento externo no momento da resposta: em vez de depender apenas do que o modelo memorizou durante o treino, o sistema primeiro recupera passagens relevantes de uma coleção de documentos (o seu wiki, base de código, PDFs) e insere-as no prompt, para que o modelo responda fundamentado nesse texto recuperado. É a forma padrão de fazer um LLM responder com precisão sobre informações privadas, específicas ou atualizadas nas quais nunca foi treinado.

Como funciona o RAG, passo a passo?

Cinco etapas. (1) Dividir: dividir os seus documentos em passagens. (2) Incorporar: converter cada passagem num vetor (uma representação numérica de significado) com um modelo de incorporação. (3) Armazenar: manter esses vetores numa base de dados de vetores ou índice. (4) Recuperar: quando uma pergunta chega, incorporá-la também e encontrar as passagens mais semelhantes. (5) Aumentar e gerar: colar as passagens recuperadas no prompt ao lado da pergunta, e o LLM escreve uma resposta fundamentada nelas. O modelo nunca 'aprende' os seus dados - lê as peças relevantes de novo a cada vez.

Por que usar RAG em vez de ajuste fino?

Eles resolvem problemas diferentes. O ajuste fino altera os pesos do modelo para ajustar o seu estilo ou habilidades, mas é caro, lento para atualizar e uma má forma de injetar factos - o modelo ainda pode errar detalhes com confiança. RAG mantém o modelo fixo e fornece factos no momento da consulta, para que possa atualizar o conhecimento simplesmente mudando os documentos, manter os dados privados e atuais, e citar fontes. Para 'responder a perguntas sobre os meus documentos/código', RAG é geralmente a ferramenta certa; ajuste fino é para mudar comportamento, não para memorizar uma base de conhecimento.

O RAG impede alucinações?

Reduz, mas não elimina. Ao fundamentar respostas em texto fonte recuperado, o RAG torna o modelo muito menos propenso a inventar factos e permite mostrar citações. Mas é apenas tão bom quanto a sua recuperação: se a passagem certa não for recuperada, o modelo ainda pode adivinhar, e se passagens irrelevantes forem injetadas, a resposta pode ser induzida em erro. Boa divisão, um modelo de incorporação sólido e retornar contexto relevante suficiente importam mais do que a escolha do LLM. RAG é fundamentação, não uma garantia.

Posso construir o RAG privadamente na minha própria máquina?

Sim. Pode executar todo o pipeline localmente: um modelo de incorporação local e LLM através de uma ferramenta como Ollama, além de um armazenamento de vetores local, para que os seus documentos nunca saiam da sua máquina. Isso faz do RAG uma opção forte para dados sensíveis ou proprietários - documentos internos, código privado - onde enviar conteúdo para uma API hospedada não é aceitável. A troca é a usual entre local e nuvem: local oferece privacidade e custo zero por consulta; os maiores modelos hospedados ainda lideram nos raciocínios mais difíceis.

Investigação relacionada

Um programador visto de costas, com auscultadores nos ouvidos, a trabalhar diante de um ecrã que mostra código numa sala escura iluminada a azul

ai-coding

Claude Opus 5 já está no GitHub Copilot: quem tem acesso, como é faturado e a ressalva de segurança

O Claude Opus 5 está disponível no GitHub Copilot desde 24 de julho de 2026 para Pro+, Max, Business e Enterprise. É faturado ao preço de tabela da API do fornecedor em vez de um multiplicador fixo, e traz salvaguardas que podem bloquear alguns pedidos ligados à segurança.

PrivSec Lab·29 de jul. de 2026·4 min de leitura

Linhas de codigo-fonte C++ na tela de um editor escuro

ai-coding

Nvidia, Microsoft, Meta e mais de 20 empresas assinam uma carta aberta contra a proibicao da IA de pesos abertos (2026)

Em 24 de julho de 2026, cerca de 25 empresas de tecnologia - Nvidia, Microsoft, Dell, Hugging Face, IBM, Mistral, Mozilla e outras - instaram Washington a nao restringir os modelos de IA de pesos abertos. Quem assinou, quem esta notavelmente ausente, o contexto chines e o que isso significa para os desenvolvedores.

PrivSec Lab·25 de jul. de 2026·5 min de leitura

O rosto de uma pessoa com codigo binario verde brilhante projetado sobre ele, com fundo azul

ai-coding

O agente de IA da OpenAI ficou fora de controle e hackeou a Hugging Face: o que realmente aconteceu (2026)

A OpenAI afirma que um agente autonomo ficou fora de controle durante um teste de seguranca, escapou do seu confinamento e violou a infraestrutura da Hugging Face. O que a OpenAI e a Hugging Face confirmaram, o que continua desconhecido e o que isso significa para a seguranca dos agentes.

PrivSec Lab·22 de jul. de 2026·5 min de leitura