alexi.sh
Tutti gli articoliSicurezza del browserPrivacy di reteStrumenti per la privacyModellazione delle minacceProgrammazione con IAStrumenti per sviluppatori

alexi.shLaboratorio di Ingegneria AI

ai-coding

LLM locale per la privacy: eseguire l'IA sul dispositivo così i tuoi dati non se ne vanno mai (2026)

PrivSec Lab6 min di lettura
Un processore AMD Ryzen inserito nel socket di una scheda madre

Eseguire un grande modello linguistico in locale significa che i tuoi prompt e i tuoi dati non lasciano mai la tua macchina - a differenza di ChatGPT, Claude o Gemini, dove l'input viene inviato ai server del fornitore. Quali modelli open-weight e strumenti scegliere per la privacy, l'hardware necessario e i compromessi onesti rispetto al cloud.

Se vuoi usare l'IA senza che i tuoi prompt lascino mai il tuo computer, un LLM locale è la risposta. Eseguire un grande modello linguistico sulla tua stessa macchina significa elaborare il tuo input sul dispositivo e non inviarlo mai al cloud - l'opposto di ChatGPT, Claude o Gemini. Questa guida spiega perché il locale è più privato, quali strumenti e modelli open-weight scegliere per la privacy, l'hardware necessario e i compromessi onesti.

La risposta breve

Esegui il modello in locale e i tuoi dati restano con te. Strumenti come Ollama o llama.cpp caricano un modello open-weight sul tuo hardware e vi svolgono tutta l'elaborazione - nessun account, nessun caricamento, funziona offline. Con i chatbot cloud, ogni prompt viene trasmesso ai server del fornitore. Per scambi privati - legale, medico, codice proprietario, note personali - l'inferenza locale elimina completamente questa esposizione.

Un processore AMD Ryzen inserito nel socket di una scheda madre

Perché il locale è più privato di ChatGPT o del cloud

Con un servizio cloud, il tuo prompt - e tutto ciò che vi incolli - viaggia sulla rete fino ai server del fornitore per essere elaborato. Salvo opt-out, questo input può servire ad addestrare modelli futuri. Serve anche un account, e i dati sono conservati sull'infrastruttura di terzi.

Un modello locale ribalta tutto questo:

  • Nulla lascia il dispositivo. I tuoi prompt e documenti sono elaborati sulla tua CPU/GPU.
  • Nessun account, funziona offline. Recupera il modello una volta, poi usalo senza connessione internet.
  • Nessun addestramento sui tuoi dati. Il modello è un file statico; l'inferenza non invia il tuo input da nessuna parte.

Questo rende il locale la scelta naturale per tutto ciò che è confidenziale - ed è per questo che chi usa Ollama vi ricorre per il lavoro sensibile.

Gli strumenti per eseguire un modello in locale

Non esegui i pesi a mano - un runtime lo fa per te:

  • Ollama - la CLI più semplice. Un comando (ollama run llama3.1) scarica e avvia un modello. Open-source, senza telemetria.
  • LM Studio - una GUI comoda per chi preferisce cliccare al terminale.
  • llama.cpp - il motore open-source leggero su cui molti strumenti sono costruiti; controllo massimo.
  • GPT4All e Jan - altre app desktop che raggruppano modelli e un'interfaccia di chat.

Ollama e llama.cpp sono open-source e non fanno 'phone home', il che li rende le scelte più sicure per la privacy. Per una guida completa, vedi cos'è Ollama.

Quali modelli open-weight scegliere per la privacy

Qualsiasi modello open-weight eseguito in locale è privato - l'inferenza avviene sulla tua macchina. La vera scelta è la capacità rispetto a ciò che il tuo hardware può contenere. Le famiglie solide che girano in locale senza telemetria:

ModelloDimensioneRAM tipica (4 bit)Adatto a
Mistral 7B7B~6-8 GBLaptop leggeri, uso quotidiano rapido
Llama 3.1 8B8B~6-8 GBMiglior equilibrio su hardware consumer
Gemma 2 (Google)9B / 27B~8 GB / ~20 GBRedazione di qualità, riassunti
Qwen 2.514B / 32B~12 GB / ~24 GBPiù capace, richiede più VRAM
Phi (Microsoft)piccolo~4-6 GBMacchine molto piccole
DeepSeekvariabilevariabilePesi aperti orientati al ragionamento

Scelta pratica: su un laptop tipico, Llama 3.1 8B o Mistral 7B quantizzato a 4 bit è l'equilibrio ideale. Con una GPU più potente, Qwen 2.5 14B/32B o Gemma 2 27B ti danno più capacità pur restando interamente offline.

Hardware: cosa ti serve (e la quantizzazione)

I requisiti crescono con il numero di parametri del modello:

  • Piccoli (3-8B): girano su un laptop moderno con 8-16 GB di RAM, su CPU o una GPU modesta.
  • Grandi (70B): richiedono una GPU potente (24 GB+ di VRAM), altrimenti sono lenti.

La leva che rende tutto questo praticabile è la quantizzazione - memorizzare i pesi del modello a precisione ridotta, tipicamente a 4 bit, il che riduce drasticamente il fabbisogno di memoria con una minima perdita di qualità. È per questo che un modello 8B entra in circa 6-8 GB anziché in molto di più. Inizia con un piccolo modello quantizzato, osserva le prestazioni, e passa a modelli più grandi solo se il tuo hardware lo permette.

Primo piano di un circuito stampato e del suo chip processore centrale

I compromessi onesti

Il locale è più privato, ma non esente da compromessi:

  • Meno capace. I modelli locali da 7 a 32B restano dietro ai modelli cloud di frontiera (GPT-5, Claude) sul ragionamento più duro e a contesto più lungo.
  • Più lento. Su hardware consumer, la generazione è più lenta di un'API ospitata che risponde da un datacenter.
  • Gestisci gli aggiornamenti. Recuperare le nuove versioni dei modelli e tenere aggiornato lo strumento spetta a te.

Per il lavoro privato, sensibile o offline, il compromesso di solito ne vale la pena. Per la capacità di punta su un problema difficile occasionale, il cloud è ancora davanti - molti usano entrambi. Se il tuo obiettivo è tenere i dati sul dispositivo, vedi IA e privacy dei dati.

Il caveat: assicurati che lo strumento non faccia 'phone home'

La privacy del "locale" dipende dal fatto che lo strumento non trasmetta nulla, non solo dal modello. Ollama e llama.cpp sono open-source e non inviano dati d'uso. Alcune app GUI hanno una telemetria opzionale - verifica le impostazioni e disattivala. Scaricare i pesi da Hugging Face è normale e senza problemi; è un trasferimento unico, e l'inferenza resta locale. Verifica il runtime, e i tuoi prompt davvero non lasciano mai la macchina.

In sintesi

Un LLM locale è il modo più privato di usare l'IA: i tuoi dati restano sul tuo dispositivo, funziona offline, senza account e senza addestramento sul tuo input. Scegli un modello open-weight (Llama 3.1 8B o Mistral 7B per iniziare), eseguilo con Ollama o llama.cpp, usa la quantizzazione a 4 bit per stare sul tuo hardware, e verifica l'assenza di telemetria. Non eguaglierà i modelli cloud di frontiera sui compiti più duri - ma per il lavoro confidenziale, il compromesso ne vale la pena. Se vuoi il modello migliore da abbinare, vedi il miglior LLM locale per programmare.

Per andare oltre, impara il runtime in cos'è Ollama, scegli un modello in il miglior LLM locale per programmare, e capisci perché l'elaborazione sul dispositivo conta in IA e privacy dei dati.

Guida editoriale basata sul comportamento documentato dei runtime di LLM locali (inferenza sul dispositivo, nessuna trasmissione di rete) rispetto ai chatbot cloud (input inviato ai server del fornitore, possibile uso per l'addestramento salvo opt-out), sugli effetti di memoria documentati della quantizzazione a 4 bit e sul divario di capacità documentato tra modelli open-weight locali e i modelli ospitati più grandi. Indichiamo chiaramente che i modelli locali restano dietro la frontiera sui compiti più duri e che alcune app GUI portano una telemetria opzionale. Nessuna relazione commerciale influenza questa guida.

Guide correlate: Cos'è Ollama?

Foto: Unsplash (source)

Disponibile anche in

FAQ

Un LLM locale è davvero più privato di ChatGPT?
Sì, per concezione. Quando esegui un modello in locale con uno strumento come Ollama o llama.cpp, i tuoi prompt e ogni documento incollato vengono elaborati interamente sul tuo hardware - nulla viene inviato sulla rete. Con servizi cloud come ChatGPT, Claude o Gemini, il tuo input viene trasmesso ai server del fornitore per essere elaborato e, salvo opt-out, può servire a migliorare i loro modelli. L'inferenza locale elimina completamente questa esposizione: nessun account, nessun caricamento, e funziona offline. L'unica sfumatura riguarda lo strumento, non il modello - i runtime open-source come Ollama e llama.cpp non fanno 'phone home', ma alcune app GUI hanno una telemetria opzionale da verificare nelle impostazioni.
Quale LLM locale è il migliore per la privacy?
Per la privacy, qualsiasi modello open-weight eseguito tramite Ollama o llama.cpp è privato, perché l'inferenza avviene sulla tua macchina - la scelta riguarda in realtà la capacità in base al tuo hardware. Un buon equilibrio su hardware consumer sono Llama 3.1 8B o Mistral 7B, quantizzati a 4 bit, che girano comodamente su un laptop moderno con 8-16 GB di RAM. Se hai una GPU più potente con più VRAM, Qwen 2.5 14B/32B o Gemma 2 27B sono più capaci pur restando interamente offline. Tutti sono modelli open-weight senza telemetria propria.
Che hardware serve per eseguire un LLM in locale?
Dipende dalla dimensione del modello. I piccoli modelli da 3 a 8B girano su un laptop moderno con 8-16 GB di RAM, su CPU o una GPU modesta. I grandi modelli come 70B richiedono una GPU potente (24 GB+ di VRAM), altrimenti sono lenti. La quantizzazione - tipicamente a 4 bit - riduce notevolmente l'impronta di memoria di un modello, il che rende praticabili i modelli 7-8B su macchine di tutti i giorni. Apple Silicon con memoria unificata se la cava bene con i modelli locali. Inizia in piccolo, osserva le prestazioni, poi passa a modelli più grandi se il tuo hardware lo permette.
I modelli locali si addestrano sui miei dati?
No. I modelli open-weight che scarichi sono file statici - fare inferenza su di essi non invia i tuoi prompt da nessuna parte e non si addestra sul tuo input. È il vantaggio di privacy fondamentale rispetto ai servizi cloud, dove le tue conversazioni possono essere conservate e usate per migliorare il modello salvo opt-out. Scaricare i pesi da un hub come Hugging Face è un trasferimento unico; dopodiché, ogni prompt digitato resta sul tuo dispositivo. Assicurati solo che il runtime o l'app che usi non trasmetta dati d'uso.
Quali sono gli svantaggi di eseguire un LLM in locale?
Onestamente, alcuni. I modelli locali sono più piccoli e meno capaci dei modelli cloud di frontiera (GPT-5, Claude) sui compiti di ragionamento più duri e a contesto più lungo. Sono più lenti su hardware consumer di un'API ospitata che risponde da un datacenter. E gestisci i tuoi aggiornamenti - recuperare le nuove versioni dei modelli e tenere aggiornato lo strumento. Per il lavoro privato, sensibile o offline, il compromesso di solito ne vale la pena; per la capacità di punta su un problema difficile, il cloud è ancora davanti. Molti usano entrambi a seconda del compito.