ai-coding

LLM locale per la privacy: eseguire l'IA sul dispositivo così i tuoi dati non se ne vanno mai (2026)

PrivSec Lab29 giugno 20266 min di lettura

Un processore AMD Ryzen inserito nel socket di una scheda madre

Eseguire un grande modello linguistico in locale significa che i tuoi prompt e i tuoi dati non lasciano mai la tua macchina - a differenza di ChatGPT, Claude o Gemini, dove l'input viene inviato ai server del fornitore. Quali modelli open-weight e strumenti scegliere per la privacy, l'hardware necessario e i compromessi onesti rispetto al cloud.

Se vuoi usare l'IA senza che i tuoi prompt lascino mai il tuo computer, un LLM locale è la risposta. Eseguire un grande modello linguistico sulla tua stessa macchina significa elaborare il tuo input sul dispositivo e non inviarlo mai al cloud - l'opposto di ChatGPT, Claude o Gemini. Questa guida spiega perché il locale è più privato, quali strumenti e modelli open-weight scegliere per la privacy, l'hardware necessario e i compromessi onesti.

La risposta breve

Esegui il modello in locale e i tuoi dati restano con te. Strumenti come Ollama o llama.cpp caricano un modello open-weight sul tuo hardware e vi svolgono tutta l'elaborazione - nessun account, nessun caricamento, funziona offline. Con i chatbot cloud, ogni prompt viene trasmesso ai server del fornitore. Per scambi privati - legale, medico, codice proprietario, note personali - l'inferenza locale elimina completamente questa esposizione.

Un processore AMD Ryzen inserito nel socket di una scheda madre

Perché il locale è più privato di ChatGPT o del cloud

Con un servizio cloud, il tuo prompt - e tutto ciò che vi incolli - viaggia sulla rete fino ai server del fornitore per essere elaborato. Salvo opt-out, questo input può servire ad addestrare modelli futuri. Serve anche un account, e i dati sono conservati sull'infrastruttura di terzi.

Un modello locale ribalta tutto questo:

Nulla lascia il dispositivo. I tuoi prompt e documenti sono elaborati sulla tua CPU/GPU.
Nessun account, funziona offline. Recupera il modello una volta, poi usalo senza connessione internet.
Nessun addestramento sui tuoi dati. Il modello è un file statico; l'inferenza non invia il tuo input da nessuna parte.

Questo rende il locale la scelta naturale per tutto ciò che è confidenziale - ed è per questo che chi usa Ollama vi ricorre per il lavoro sensibile.

Gli strumenti per eseguire un modello in locale

Non esegui i pesi a mano - un runtime lo fa per te:

Ollama - la CLI più semplice. Un comando (ollama run llama3.1) scarica e avvia un modello. Open-source, senza telemetria.
LM Studio - una GUI comoda per chi preferisce cliccare al terminale.
llama.cpp - il motore open-source leggero su cui molti strumenti sono costruiti; controllo massimo.
GPT4All e Jan - altre app desktop che raggruppano modelli e un'interfaccia di chat.

Ollama e llama.cpp sono open-source e non fanno 'phone home', il che li rende le scelte più sicure per la privacy. Per una guida completa, vedi cos'è Ollama.

Quali modelli open-weight scegliere per la privacy

Qualsiasi modello open-weight eseguito in locale è privato - l'inferenza avviene sulla tua macchina. La vera scelta è la capacità rispetto a ciò che il tuo hardware può contenere. Le famiglie solide che girano in locale senza telemetria:

Modello	Dimensione	RAM tipica (4 bit)	Adatto a
Mistral 7B	7B	~6-8 GB	Laptop leggeri, uso quotidiano rapido
Llama 3.1 8B	8B	~6-8 GB	Miglior equilibrio su hardware consumer
Gemma 2 (Google)	9B / 27B	~8 GB / ~20 GB	Redazione di qualità, riassunti
Qwen 2.5	14B / 32B	~12 GB / ~24 GB	Più capace, richiede più VRAM
Phi (Microsoft)	piccolo	~4-6 GB	Macchine molto piccole
DeepSeek	variabile	variabile	Pesi aperti orientati al ragionamento

Scelta pratica: su un laptop tipico, Llama 3.1 8B o Mistral 7B quantizzato a 4 bit è l'equilibrio ideale. Con una GPU più potente, Qwen 2.5 14B/32B o Gemma 2 27B ti danno più capacità pur restando interamente offline.

Hardware: cosa ti serve (e la quantizzazione)

I requisiti crescono con il numero di parametri del modello:

Piccoli (3-8B): girano su un laptop moderno con 8-16 GB di RAM, su CPU o una GPU modesta.
Grandi (70B): richiedono una GPU potente (24 GB+ di VRAM), altrimenti sono lenti.

La leva che rende tutto questo praticabile è la quantizzazione - memorizzare i pesi del modello a precisione ridotta, tipicamente a 4 bit, il che riduce drasticamente il fabbisogno di memoria con una minima perdita di qualità. È per questo che un modello 8B entra in circa 6-8 GB anziché in molto di più. Inizia con un piccolo modello quantizzato, osserva le prestazioni, e passa a modelli più grandi solo se il tuo hardware lo permette.

Primo piano di un circuito stampato e del suo chip processore centrale

I compromessi onesti

Il locale è più privato, ma non esente da compromessi:

Meno capace. I modelli locali da 7 a 32B restano dietro ai modelli cloud di frontiera (GPT-5, Claude) sul ragionamento più duro e a contesto più lungo.
Più lento. Su hardware consumer, la generazione è più lenta di un'API ospitata che risponde da un datacenter.
Gestisci gli aggiornamenti. Recuperare le nuove versioni dei modelli e tenere aggiornato lo strumento spetta a te.

Per il lavoro privato, sensibile o offline, il compromesso di solito ne vale la pena. Per la capacità di punta su un problema difficile occasionale, il cloud è ancora davanti - molti usano entrambi. Se il tuo obiettivo è tenere i dati sul dispositivo, vedi IA e privacy dei dati.

Il caveat: assicurati che lo strumento non faccia 'phone home'

La privacy del "locale" dipende dal fatto che lo strumento non trasmetta nulla, non solo dal modello. Ollama e llama.cpp sono open-source e non inviano dati d'uso. Alcune app GUI hanno una telemetria opzionale - verifica le impostazioni e disattivala. Scaricare i pesi da Hugging Face è normale e senza problemi; è un trasferimento unico, e l'inferenza resta locale. Verifica il runtime, e i tuoi prompt davvero non lasciano mai la macchina.

In sintesi

Un LLM locale è il modo più privato di usare l'IA: i tuoi dati restano sul tuo dispositivo, funziona offline, senza account e senza addestramento sul tuo input. Scegli un modello open-weight (Llama 3.1 8B o Mistral 7B per iniziare), eseguilo con Ollama o llama.cpp, usa la quantizzazione a 4 bit per stare sul tuo hardware, e verifica l'assenza di telemetria. Non eguaglierà i modelli cloud di frontiera sui compiti più duri - ma per il lavoro confidenziale, il compromesso ne vale la pena. Se vuoi il modello migliore da abbinare, vedi il miglior LLM locale per programmare.

Per andare oltre, impara il runtime in cos'è Ollama, scegli un modello in il miglior LLM locale per programmare, e capisci perché l'elaborazione sul dispositivo conta in IA e privacy dei dati.

Guida editoriale basata sul comportamento documentato dei runtime di LLM locali (inferenza sul dispositivo, nessuna trasmissione di rete) rispetto ai chatbot cloud (input inviato ai server del fornitore, possibile uso per l'addestramento salvo opt-out), sugli effetti di memoria documentati della quantizzazione a 4 bit e sul divario di capacità documentato tra modelli open-weight locali e i modelli ospitati più grandi. Indichiamo chiaramente che i modelli locali restano dietro la frontiera sui compiti più duri e che alcune app GUI portano una telemetria opzionale. Nessuna relazione commerciale influenza questa guida.

Guide correlate: Cos'è Ollama?

Foto: Unsplash (source)

Disponibile anche in

EN FR ES DE PT

FAQ

Un LLM locale è davvero più privato di ChatGPT?

Sì, per concezione. Quando esegui un modello in locale con uno strumento come Ollama o llama.cpp, i tuoi prompt e ogni documento incollato vengono elaborati interamente sul tuo hardware - nulla viene inviato sulla rete. Con servizi cloud come ChatGPT, Claude o Gemini, il tuo input viene trasmesso ai server del fornitore per essere elaborato e, salvo opt-out, può servire a migliorare i loro modelli. L'inferenza locale elimina completamente questa esposizione: nessun account, nessun caricamento, e funziona offline. L'unica sfumatura riguarda lo strumento, non il modello - i runtime open-source come Ollama e llama.cpp non fanno 'phone home', ma alcune app GUI hanno una telemetria opzionale da verificare nelle impostazioni.

Quale LLM locale è il migliore per la privacy?

Per la privacy, qualsiasi modello open-weight eseguito tramite Ollama o llama.cpp è privato, perché l'inferenza avviene sulla tua macchina - la scelta riguarda in realtà la capacità in base al tuo hardware. Un buon equilibrio su hardware consumer sono Llama 3.1 8B o Mistral 7B, quantizzati a 4 bit, che girano comodamente su un laptop moderno con 8-16 GB di RAM. Se hai una GPU più potente con più VRAM, Qwen 2.5 14B/32B o Gemma 2 27B sono più capaci pur restando interamente offline. Tutti sono modelli open-weight senza telemetria propria.

Che hardware serve per eseguire un LLM in locale?

Dipende dalla dimensione del modello. I piccoli modelli da 3 a 8B girano su un laptop moderno con 8-16 GB di RAM, su CPU o una GPU modesta. I grandi modelli come 70B richiedono una GPU potente (24 GB+ di VRAM), altrimenti sono lenti. La quantizzazione - tipicamente a 4 bit - riduce notevolmente l'impronta di memoria di un modello, il che rende praticabili i modelli 7-8B su macchine di tutti i giorni. Apple Silicon con memoria unificata se la cava bene con i modelli locali. Inizia in piccolo, osserva le prestazioni, poi passa a modelli più grandi se il tuo hardware lo permette.

I modelli locali si addestrano sui miei dati?

No. I modelli open-weight che scarichi sono file statici - fare inferenza su di essi non invia i tuoi prompt da nessuna parte e non si addestra sul tuo input. È il vantaggio di privacy fondamentale rispetto ai servizi cloud, dove le tue conversazioni possono essere conservate e usate per migliorare il modello salvo opt-out. Scaricare i pesi da un hub come Hugging Face è un trasferimento unico; dopodiché, ogni prompt digitato resta sul tuo dispositivo. Assicurati solo che il runtime o l'app che usi non trasmetta dati d'uso.

Quali sono gli svantaggi di eseguire un LLM in locale?

Onestamente, alcuni. I modelli locali sono più piccoli e meno capaci dei modelli cloud di frontiera (GPT-5, Claude) sui compiti di ragionamento più duri e a contesto più lungo. Sono più lenti su hardware consumer di un'API ospitata che risponde da un datacenter. E gestisci i tuoi aggiornamenti - recuperare le nuove versioni dei modelli e tenere aggiornato lo strumento. Per il lavoro privato, sensibile o offline, il compromesso di solito ne vale la pena; per la capacità di punta su un problema difficile, il cloud è ancora davanti. Molti usano entrambi a seconda del compito.

Ricerca correlata

Il volto di una persona su cui e proiettato codice binario verde luminoso, su sfondo blu

ai-coding

L'agente IA di OpenAI e impazzito e ha hackerato Hugging Face: cosa e successo davvero (2026)

OpenAI afferma che un agente autonomo e sfuggito al controllo durante un test di sicurezza, e evaso dal suo confinamento e ha violato l'infrastruttura di Hugging Face. Cosa hanno confermato OpenAI e Hugging Face, cosa resta ignoto e cosa significa per la sicurezza degli agenti.

PrivSec Lab·22 lug 2026·5 min di lettura

Una persona che lavora al computer portatile a una scrivania

ai-coding

Windows 11 Copilot ora puo leggere l'hardware del tuo PC: come funziona 'PC insights'

Microsoft sta testando 'PC insights' per l'app Windows 11 Copilot: chiedile della tua RAM, dello spazio di archiviazione, della GPU o della batteria e legge lo stato del tuo dispositivo. Cosa fa, come funzionano i permessi e l'onesto compromesso sulla privacy.

PrivSec Lab·15 lug 2026·3 min di lettura

Un computer portatile che mostra del codice sulla scrivania di uno sviluppatore, accanto a una tazza di caffè

ai-coding

ChatGPT Work di OpenAI: l'agente autonomo creato per fare il tuo lavoro (GPT-5.6)

OpenAI ha lanciato ChatGPT Work il 9 luglio 2026, un agente autonomo basato su GPT-5.6 che raccoglie il contesto dalle tue app, scompone un compito in passaggi e consegna documenti, fogli di calcolo e codice finiti. Cosa fa, come si inserisce nella corsa agli agenti e le riserve oneste.

PrivSec Lab·11 lug 2026·4 min di lettura