Chiedi a un LLM semplice dei documenti interni della tua azienda o di un codice privato e ti dirà che non sa o, peggio, inventerà qualcosa con sicurezza — non è mai stato addestrato sui tuoi dati. RAG (Generazione Aumentata dal Recupero) è come risolvere questo problema senza riaddestrare nulla: recupera prima il testo rilevante, poi lascia che il modello risponda basandosi su di esso. Questa guida spiega cos'è RAG, come funziona il processo passo dopo passo, perché è migliore del fine-tuning per i fatti e i suoi limiti onesti.
Cos'è realmente RAG
RAG combina due parti: un recuperatore che trova passaggi rilevanti da una fonte di conoscenza, e un generatore (l'LLM) che scrive una risposta usando quei passaggi. Invece di sperare che il modello abbia memorizzato il fatto giusto durante l'addestramento, recuperi il fatto al momento della risposta e lo metti nel prompt.
Il modello mentale chiave: l'LLM non impara i tuoi documenti. Ogni volta che chiedi, il sistema recupera i pezzi rilevanti e il modello li legge freschi — come un esame a libro aperto piuttosto che un richiamo dalla memoria.
Come funziona la pipeline
- Dividi — suddividi i documenti in passaggi abbastanza piccoli da essere precisi ma abbastanza grandi da mantenere il contesto.
- Incorpora — trasforma ogni passaggio in un vettore (una rappresentazione numerica del significato) con un modello di incorporamento.
- Memorizza — conserva i vettori in un database vettoriale o indice.
- Recupera — incorpora la domanda in arrivo e trova i passaggi più simili.
- Aumenta e genera — inserisci i passaggi recuperati nel prompt accanto alla domanda; l'LLM risponde basandosi su di essi, idealmente con citazioni.
Aggiorna la tua conoscenza cambiando i documenti — senza riaddestramento, senza attese.
RAG vs fine-tuning
Una confusione comune. Il fine-tuning regola i pesi del modello — buono per cambiare stile o abilità, cattivo e costoso per iniettare fatti, e obsoleto nel momento in cui i tuoi dati cambiano. RAG lascia il modello fisso e fornisce i fatti al momento della query, quindi la conoscenza rimane aggiornata, privata e citabile. Per "rispondere a domande sui miei documenti o codice", RAG è quasi sempre lo strumento giusto. Usa il fine-tuning per cambiare comportamento, non per memorizzare una base di conoscenza.
I limiti onesti
RAG riduce le allucinazioni ma non le elimina. È valido solo quanto il suo recupero:
- Se il passaggio giusto non viene recuperato, il modello potrebbe ancora indovinare.
- Se vengono iniettati passaggi irrilevanti, possono fuorviare la risposta.
- La strategia di suddivisione e il modello di incorporamento spesso contano più di quale LLM usi.
RAG è fondamentale, non una garanzia — considera la qualità del recupero come l'aspetto da ingegnerizzare.
Costruirlo privatamente
Puoi eseguire l'intera pipeline sul tuo hardware: un modello di incorporamento locale e LLM tramite Ollama, oltre a un archivio vettoriale locale, in modo che i documenti sensibili non lascino mai la tua macchina. Per scegliere il modello che genera la risposta finale, consulta la nostra guida ai migliori LLM locali per il coding. L'architettura è identica sia che la esegui localmente sia nel cloud — cambia solo dove risiedono il calcolo e i dati.
La conclusione
RAG è il modo pratico per far rispondere un LLM accuratamente su informazioni su cui non è mai stato addestrato: recupera testo rilevante, fonda la risposta su di esso, cita la fonte. Supera il fine-tuning per i fatti, può essere eseguito completamente in privato con modelli locali e riduce le allucinazioni — purché tu investa in un buon recupero, perché RAG è sempre forte quanto i passaggi che recupera.


