Se vuoi usare l'IA senza che i tuoi prompt lascino mai il tuo computer, un LLM locale è la risposta. Eseguire un grande modello linguistico sulla tua stessa macchina significa elaborare il tuo input sul dispositivo e non inviarlo mai al cloud - l'opposto di ChatGPT, Claude o Gemini. Questa guida spiega perché il locale è più privato, quali strumenti e modelli open-weight scegliere per la privacy, l'hardware necessario e i compromessi onesti.
La risposta breve
Esegui il modello in locale e i tuoi dati restano con te. Strumenti come Ollama o llama.cpp caricano un modello open-weight sul tuo hardware e vi svolgono tutta l'elaborazione - nessun account, nessun caricamento, funziona offline. Con i chatbot cloud, ogni prompt viene trasmesso ai server del fornitore. Per scambi privati - legale, medico, codice proprietario, note personali - l'inferenza locale elimina completamente questa esposizione.
Perché il locale è più privato di ChatGPT o del cloud
Con un servizio cloud, il tuo prompt - e tutto ciò che vi incolli - viaggia sulla rete fino ai server del fornitore per essere elaborato. Salvo opt-out, questo input può servire ad addestrare modelli futuri. Serve anche un account, e i dati sono conservati sull'infrastruttura di terzi.
Un modello locale ribalta tutto questo:
- Nulla lascia il dispositivo. I tuoi prompt e documenti sono elaborati sulla tua CPU/GPU.
- Nessun account, funziona offline. Recupera il modello una volta, poi usalo senza connessione internet.
- Nessun addestramento sui tuoi dati. Il modello è un file statico; l'inferenza non invia il tuo input da nessuna parte.
Questo rende il locale la scelta naturale per tutto ciò che è confidenziale - ed è per questo che chi usa Ollama vi ricorre per il lavoro sensibile.
Gli strumenti per eseguire un modello in locale
Non esegui i pesi a mano - un runtime lo fa per te:
- Ollama - la CLI più semplice. Un comando (
ollama run llama3.1) scarica e avvia un modello. Open-source, senza telemetria. - LM Studio - una GUI comoda per chi preferisce cliccare al terminale.
- llama.cpp - il motore open-source leggero su cui molti strumenti sono costruiti; controllo massimo.
- GPT4All e Jan - altre app desktop che raggruppano modelli e un'interfaccia di chat.
Ollama e llama.cpp sono open-source e non fanno 'phone home', il che li rende le scelte più sicure per la privacy. Per una guida completa, vedi cos'è Ollama.
Quali modelli open-weight scegliere per la privacy
Qualsiasi modello open-weight eseguito in locale è privato - l'inferenza avviene sulla tua macchina. La vera scelta è la capacità rispetto a ciò che il tuo hardware può contenere. Le famiglie solide che girano in locale senza telemetria:
| Modello | Dimensione | RAM tipica (4 bit) | Adatto a |
|---|---|---|---|
| Mistral 7B | 7B | ~6-8 GB | Laptop leggeri, uso quotidiano rapido |
| Llama 3.1 8B | 8B | ~6-8 GB | Miglior equilibrio su hardware consumer |
| Gemma 2 (Google) | 9B / 27B | ~8 GB / ~20 GB | Redazione di qualità, riassunti |
| Qwen 2.5 | 14B / 32B | ~12 GB / ~24 GB | Più capace, richiede più VRAM |
| Phi (Microsoft) | piccolo | ~4-6 GB | Macchine molto piccole |
| DeepSeek | variabile | variabile | Pesi aperti orientati al ragionamento |
Scelta pratica: su un laptop tipico, Llama 3.1 8B o Mistral 7B quantizzato a 4 bit è l'equilibrio ideale. Con una GPU più potente, Qwen 2.5 14B/32B o Gemma 2 27B ti danno più capacità pur restando interamente offline.
Hardware: cosa ti serve (e la quantizzazione)
I requisiti crescono con il numero di parametri del modello:
- Piccoli (3-8B): girano su un laptop moderno con 8-16 GB di RAM, su CPU o una GPU modesta.
- Grandi (70B): richiedono una GPU potente (24 GB+ di VRAM), altrimenti sono lenti.
La leva che rende tutto questo praticabile è la quantizzazione - memorizzare i pesi del modello a precisione ridotta, tipicamente a 4 bit, il che riduce drasticamente il fabbisogno di memoria con una minima perdita di qualità. È per questo che un modello 8B entra in circa 6-8 GB anziché in molto di più. Inizia con un piccolo modello quantizzato, osserva le prestazioni, e passa a modelli più grandi solo se il tuo hardware lo permette.
I compromessi onesti
Il locale è più privato, ma non esente da compromessi:
- Meno capace. I modelli locali da 7 a 32B restano dietro ai modelli cloud di frontiera (GPT-5, Claude) sul ragionamento più duro e a contesto più lungo.
- Più lento. Su hardware consumer, la generazione è più lenta di un'API ospitata che risponde da un datacenter.
- Gestisci gli aggiornamenti. Recuperare le nuove versioni dei modelli e tenere aggiornato lo strumento spetta a te.
Per il lavoro privato, sensibile o offline, il compromesso di solito ne vale la pena. Per la capacità di punta su un problema difficile occasionale, il cloud è ancora davanti - molti usano entrambi. Se il tuo obiettivo è tenere i dati sul dispositivo, vedi IA e privacy dei dati.
Il caveat: assicurati che lo strumento non faccia 'phone home'
La privacy del "locale" dipende dal fatto che lo strumento non trasmetta nulla, non solo dal modello. Ollama e llama.cpp sono open-source e non inviano dati d'uso. Alcune app GUI hanno una telemetria opzionale - verifica le impostazioni e disattivala. Scaricare i pesi da Hugging Face è normale e senza problemi; è un trasferimento unico, e l'inferenza resta locale. Verifica il runtime, e i tuoi prompt davvero non lasciano mai la macchina.
In sintesi
Un LLM locale è il modo più privato di usare l'IA: i tuoi dati restano sul tuo dispositivo, funziona offline, senza account e senza addestramento sul tuo input. Scegli un modello open-weight (Llama 3.1 8B o Mistral 7B per iniziare), eseguilo con Ollama o llama.cpp, usa la quantizzazione a 4 bit per stare sul tuo hardware, e verifica l'assenza di telemetria. Non eguaglierà i modelli cloud di frontiera sui compiti più duri - ma per il lavoro confidenziale, il compromesso ne vale la pena. Se vuoi il modello migliore da abbinare, vedi il miglior LLM locale per programmare.
Per andare oltre, impara il runtime in cos'è Ollama, scegli un modello in il miglior LLM locale per programmare, e capisci perché l'elaborazione sul dispositivo conta in IA e privacy dei dati.
Guida editoriale basata sul comportamento documentato dei runtime di LLM locali (inferenza sul dispositivo, nessuna trasmissione di rete) rispetto ai chatbot cloud (input inviato ai server del fornitore, possibile uso per l'addestramento salvo opt-out), sugli effetti di memoria documentati della quantizzazione a 4 bit e sul divario di capacità documentato tra modelli open-weight locali e i modelli ospitati più grandi. Indichiamo chiaramente che i modelli locali restano dietro la frontiera sui compiti più duri e che alcune app GUI portano una telemetria opzionale. Nessuna relazione commerciale influenza questa guida.
Guide correlate: Cos'è Ollama?


