alexi.sh
Tutti gli articoliSicurezza del browserPrivacy di reteStrumenti per la privacyModellazione delle minacceProgrammazione con IAStrumenti per sviluppatori

alexi.shLaboratorio di Ingegneria AI

ai-coding

Cos'è RAG? Spiegazione della Generazione Aumentata dal Recupero (2026)

PrivSec Lab3 min di lettura
Un laptop aperto che mostra codice su una scrivania

RAG (Generazione Aumentata dal Recupero) permette a un LLM di rispondere dai tuoi documenti recuperando testo rilevante e inserendolo nel prompt — invece di fare affidamento solo su ciò che ha memorizzato. Come funziona, perché riduce le allucinazioni e i suoi limiti onesti.

Chiedi a un LLM semplice dei documenti interni della tua azienda o di un codice privato e ti dirà che non sa o, peggio, inventerà qualcosa con sicurezza — non è mai stato addestrato sui tuoi dati. RAG (Generazione Aumentata dal Recupero) è come risolvere questo problema senza riaddestrare nulla: recupera prima il testo rilevante, poi lascia che il modello risponda basandosi su di esso. Questa guida spiega cos'è RAG, come funziona il processo passo dopo passo, perché è migliore del fine-tuning per i fatti e i suoi limiti onesti.

Cos'è realmente RAG

RAG combina due parti: un recuperatore che trova passaggi rilevanti da una fonte di conoscenza, e un generatore (l'LLM) che scrive una risposta usando quei passaggi. Invece di sperare che il modello abbia memorizzato il fatto giusto durante l'addestramento, recuperi il fatto al momento della risposta e lo metti nel prompt.

Il modello mentale chiave: l'LLM non impara i tuoi documenti. Ogni volta che chiedi, il sistema recupera i pezzi rilevanti e il modello li legge freschi — come un esame a libro aperto piuttosto che un richiamo dalla memoria.

Codice su uno schermo del computer
Codice su uno schermo — una pipeline RAG indicizza i tuoi documenti o il tuo codice in modo che il modello possa recuperare e citare i pezzi rilevanti.

Come funziona la pipeline

  1. Dividi — suddividi i documenti in passaggi abbastanza piccoli da essere precisi ma abbastanza grandi da mantenere il contesto.
  2. Incorpora — trasforma ogni passaggio in un vettore (una rappresentazione numerica del significato) con un modello di incorporamento.
  3. Memorizza — conserva i vettori in un database vettoriale o indice.
  4. Recupera — incorpora la domanda in arrivo e trova i passaggi più simili.
  5. Aumenta e genera — inserisci i passaggi recuperati nel prompt accanto alla domanda; l'LLM risponde basandosi su di essi, idealmente con citazioni.

Aggiorna la tua conoscenza cambiando i documenti — senza riaddestramento, senza attese.

RAG vs fine-tuning

Una confusione comune. Il fine-tuning regola i pesi del modello — buono per cambiare stile o abilità, cattivo e costoso per iniettare fatti, e obsoleto nel momento in cui i tuoi dati cambiano. RAG lascia il modello fisso e fornisce i fatti al momento della query, quindi la conoscenza rimane aggiornata, privata e citabile. Per "rispondere a domande sui miei documenti o codice", RAG è quasi sempre lo strumento giusto. Usa il fine-tuning per cambiare comportamento, non per memorizzare una base di conoscenza.

I limiti onesti

RAG riduce le allucinazioni ma non le elimina. È valido solo quanto il suo recupero:

  • Se il passaggio giusto non viene recuperato, il modello potrebbe ancora indovinare.
  • Se vengono iniettati passaggi irrilevanti, possono fuorviare la risposta.
  • La strategia di suddivisione e il modello di incorporamento spesso contano più di quale LLM usi.

RAG è fondamentale, non una garanzia — considera la qualità del recupero come l'aspetto da ingegnerizzare.

Costruirlo privatamente

Puoi eseguire l'intera pipeline sul tuo hardware: un modello di incorporamento locale e LLM tramite Ollama, oltre a un archivio vettoriale locale, in modo che i documenti sensibili non lascino mai la tua macchina. Per scegliere il modello che genera la risposta finale, consulta la nostra guida ai migliori LLM locali per il coding. L'architettura è identica sia che la esegui localmente sia nel cloud — cambia solo dove risiedono il calcolo e i dati.

La conclusione

RAG è il modo pratico per far rispondere un LLM accuratamente su informazioni su cui non è mai stato addestrato: recupera testo rilevante, fonda la risposta su di esso, cita la fonte. Supera il fine-tuning per i fatti, può essere eseguito completamente in privato con modelli locali e riduce le allucinazioni — purché tu investa in un buon recupero, perché RAG è sempre forte quanto i passaggi che recupera.

Photo: Unsplash (source)

Disponibile anche in

FAQ

Cos'è RAG?
RAG sta per Generazione Aumentata dal Recupero. È una tecnica che dà a un modello di linguaggio ampio accesso a conoscenze esterne al momento della risposta: invece di fare affidamento solo su ciò che il modello ha memorizzato durante l'addestramento, il sistema prima recupera passaggi rilevanti da una raccolta di documenti (il tuo wiki, codice, PDF) e li inserisce nel prompt, così il modello risponde basandosi su quel testo recuperato. È il modo standard per far rispondere un LLM accuratamente su informazioni private, specifiche o aggiornate su cui non è mai stato addestrato.
Come funziona RAG, passo dopo passo?
Cinque fasi. (1) Dividi: suddividi i tuoi documenti in passaggi. (2) Incorpora: converti ogni passaggio in un vettore (una rappresentazione numerica del significato) con un modello di incorporamento. (3) Memorizza: conserva quei vettori in un database vettoriale o indice. (4) Recupera: quando arriva una domanda, incorpora anche quella e trova i passaggi più simili. (5) Aumenta e genera: incolla i passaggi recuperati nel prompt accanto alla domanda, e l'LLM scrive una risposta basandosi su di essi. Il modello non 'impara' mai i tuoi dati — legge i pezzi rilevanti freschi ogni volta.
Perché usare RAG invece del fine-tuning?
Risolvono problemi diversi. Il fine-tuning cambia i pesi del modello per regolare il suo stile o abilità, ma è costoso, lento da aggiornare, e un modo povero per iniettare fatti — il modello può ancora sbagliare dettagli con sicurezza. RAG mantiene il modello fisso e fornisce i fatti al momento della query, quindi puoi aggiornare la conoscenza semplicemente cambiando i documenti, mantenere i dati privati e aggiornati, e citare le fonti. Per 'rispondere a domande sui miei documenti/codice', RAG è solitamente lo strumento giusto; il fine-tuning è per cambiare comportamento, non per memorizzare una base di conoscenza.
RAG ferma le allucinazioni?
Le riduce, ma non le elimina. Fondando le risposte su testo di origine recuperato, RAG rende il modello molto meno propenso a inventare fatti e ti permette di mostrare citazioni. Ma è valido solo quanto il suo recupero: se il passaggio giusto non viene recuperato, il modello potrebbe ancora indovinare, e se vengono iniettati passaggi irrilevanti, la risposta può essere fuorviata. Una buona suddivisione, un solido modello di incorporamento, e il ritorno di abbastanza contesto rilevante contano più della scelta dell'LLM. RAG è fondamentale, non una garanzia.
Posso costruire RAG privatamente sulla mia macchina?
Sì. Puoi eseguire l'intera pipeline localmente: un modello di incorporamento locale e LLM tramite uno strumento come Ollama, oltre a un archivio vettoriale locale, così i tuoi documenti non lasciano mai la tua macchina. Questo rende RAG una scelta forte per dati sensibili o proprietari — documenti interni, codice privato — dove inviare contenuti a un'API ospitata non è accettabile. Il compromesso è il solito tra locale e cloud: il locale offre privacy e zero costi per query; i modelli ospitati più grandi sono ancora leader nei ragionamenti più complessi.