ai-coding

Cos'è Ollama? Esegui LLMs Localmente nel 2026 (Guida per Principianti)

PrivSec Lab14 giugno 20263 min di lettura

Un terminale a riga di comando su Ubuntu

Ollama è uno strumento open-source per scaricare ed eseguire modelli di linguaggio di grandi dimensioni localmente con un solo comando - Llama, Qwen, Mistral e altri, sulla tua macchina. Cos'è, come installarlo e usarlo, l'API REST, e i limiti onesti rispetto ai modelli cloud.

Se hai voluto eseguire l'IA sul tuo computer - senza cloud, senza chiave API, niente che lasci la tua macchina - Ollama è il modo più semplice per farlo nel 2026. È uno strumento open-source che scarica ed esegue modelli di linguaggio di grandi dimensioni localmente con un singolo comando. Questa guida spiega cos'è Ollama, come installarlo e usarlo, la sua API locale, e i limiti onesti rispetto ai modelli cloud.

Cos'è Ollama

Ollama raggruppa i pesi del modello, la configurazione e un runtime in modo che un comando funzioni:

ollama run qwen2.5

Questo scarica il modello al primo avvio e ti inserisce in una chat locale. Funziona su macOS, Linux e Windows, supporta molti modelli aperti (Llama, Qwen, Mistral, Gemma, DeepSeek e altri), e mantiene tutto sulla tua macchina. È il modo più semplice per iniziare con l'IA locale.

Un corridoio di una sala server fiancheggiato da rack

Installazione e utilizzo

Scarica l'installer per il tuo sistema operativo (o esegui lo script di installazione per Linux), poi:

ollama run llama3.2     # chatta con un modello (scarica al primo avvio)
ollama pull qwen2.5     # scarica un modello senza chattare
ollama list             # visualizza i modelli installati
ollama serve            # esegui l'API locale

È volutamente minimale: un comando per chattare, uno per scaricare, uno per servire.

L'API locale

Ollama esegue una API REST su http://localhost:11434 che app e script possono chiamare per generare testo, chattare o creare embeddings - così puoi costruire pipeline RAG, chatbot e assistenti di editor completamente sul dispositivo. Strumenti come l'estensione Continue (VS Code/JetBrains) si integrano direttamente con essa. Mantieni l'endpoint su localhost (non 0.0.0.0) in modo che non sia esposto sulla tua rete.

Perché le persone usano Ollama

Privacy: i prompt e i documenti rimangono locali - niente viene inviato a terzi. Vedi sovranità dei dati.
Costo: strumento gratuito, inferenza gratuita sull'hardware che possiedi.
Offline & riproducibile: funziona senza internet; lo stesso modello si comporta allo stesso modo indefinitamente.

Per scegliere il modello giusto da eseguire, vedi il miglior LLM locale per la programmazione e i migliori LLM per la programmazione 2026.

I limiti onesti

Hardware: hai bisogno di abbastanza RAM/VRAM per la dimensione del modello (un modello da 7B in ~6-8 GB a 4-bit; i modelli più grandi necessitano di più). Apple Silicon con memoria unificata funziona bene.
Capacità: i modelli locali da 7B-70B sono ottimi per redigere, riassumere, aiuto alla programmazione e RAG, ma i modelli ospitati più grandi sono ancora i migliori per il ragionamento più difficile e il contesto più lungo.
Licenze: i modelli hanno le proprie licenze - rispettale per l'uso commerciale.

Quindi il compromesso è chiaro: Ollama offre privacy, costo zero per token e uso offline; il cloud offre capacità massima. Per il lato cloud, vedi Cursor vs Copilot.

Conclusione

Ollama è il modo più semplice per eseguire LLMs localmente nel 2026: un comando, molti modelli aperti, un'API locale, e piena privacy perché niente lascia la tua macchina. Non corrisponderà al fronte assoluto dei modelli ospitati nei compiti più difficili, ma per chat private, aiuto alla programmazione, RAG sui tuoi file e uso offline, è veramente eccellente - e gratuito. Se l'IA locale e privata è il tuo obiettivo, Ollama è il punto di partenza.

Per andare oltre, abbina Ollama con il modello giusto in il miglior LLM locale per la programmazione, e leggi perché mantenere l'inferenza locale è importante in sovranità dei dati.

Guida editoriale basata sulle caratteristiche documentate di Ollama (runtime del modello locale, CLI, API REST su localhost, modelli aperti supportati) e sui compromessi documentati dei LLM locali rispetto a quelli ospitati. Dichiariamo chiaramente che i modelli locali sono indietro rispetto ai più grandi ospitati nei compiti più difficili. Nessuna relazione con i fornitori influenza questa guida.

Guide correlate: Sicurezza degli Agenti AI.

Photo: Unsplash (source)

Disponibile anche in

EN FR ES DE PT

FAQ

Cos'è Ollama?

Ollama è uno strumento gratuito e open-source che ti permette di scaricare ed eseguire modelli di linguaggio di grandi dimensioni (LLM) localmente sul tuo computer con un solo comando. Raggruppa i pesi del modello, la configurazione e un runtime in modo che 'ollama run llama3.2' funzioni - nessun account cloud, nessuna chiave API, nessun dato che lascia la tua macchina. Funziona su macOS, Linux e Windows, espone un'API REST locale per l'uso da parte delle app, e supporta molti modelli aperti (Llama, Qwen, Mistral, Gemma, DeepSeek e altri). Pensalo come il modo più semplice per iniziare con l'IA locale.

Come installo e uso Ollama?

Scarica l'installer per il tuo sistema operativo dal sito ufficiale (o usa lo script di installazione per Linux), poi in un terminale esegui 'ollama run <model>', ad esempio 'ollama run qwen2.5' - Ollama scarica il modello al primo avvio e ti inserisce in un prompt di chat. Altri comandi chiave: 'ollama pull <model>' per scaricare un modello, 'ollama list' per vedere quelli installati, e 'ollama serve' che esegue l'API locale. È volutamente minimale: un comando per chattare, uno per scaricare, uno per servire.

Ollama ha un'API?

Sì. Ollama esegue un'API REST locale (di default su http://localhost:11434) che app e script possono chiamare per generare testo, chattare o creare embeddings - così puoi costruire pipeline RAG, assistenti di editor e chatbot completamente sul dispositivo. Molti strumenti si integrano con essa direttamente, inclusa l'estensione Continue per VS Code/JetBrains. Poiché l'endpoint è locale, i tuoi prompt e dati non lasciano mai la tua macchina a meno che non esponi deliberatamente la porta.

Ollama è privato e gratuito?

Sì per entrambi. Ollama è open-source e gratuito, e esegue modelli interamente sul tuo hardware, quindi i tuoi prompt e documenti rimangono locali - niente viene inviato a un'API di terze parti. Questo lo rende una scelta forte per lavori sensibili o proprietari. Le due avvertenze: mantieni l'API vincolata a localhost (non 0.0.0.0) in modo che non sia esposta sulla tua rete, e ricorda che i modelli stessi hanno le proprie licenze che dovresti rispettare per l'uso commerciale.

Ollama è abbastanza buono rispetto a ChatGPT o Claude?

Per molti compiti, sì - ma onestamente, non al fronte assoluto. I modelli locali che esegui tramite Ollama (classe 7B-70B) sono eccellenti per redigere, riassumere, assistenza alla programmazione, RAG sui tuoi documenti, e uso offline/privato. I modelli ospitati più grandi sono ancora i migliori per il ragionamento più difficile e il contesto più lungo. Il compromesso è chiaro: Ollama ti offre privacy, costo zero per token e capacità offline; il cloud ti offre capacità massima. Molte persone usano entrambi.

Ricerca correlata

Uno sviluppatore visto di spalle, con le cuffie sulle orecchie, al lavoro davanti a uno schermo che mostra del codice in una stanza buia illuminata di blu

ai-coding

Claude Opus 5 è ora in GitHub Copilot: chi vi ha accesso, come viene fatturato e la riserva sulla sicurezza

Claude Opus 5 è disponibile in GitHub Copilot dal 24 luglio 2026 per Pro+, Max, Business ed Enterprise. Viene fatturato al prezzo di listino dell'API del fornitore anziché con un moltiplicatore fisso, e integra protezioni che possono bloccare alcune richieste vicine alla sicurezza.

PrivSec Lab·29 lug 2026·4 min di lettura

Righe di codice sorgente C++ sullo schermo di un editor scuro

ai-coding

Nvidia, Microsoft, Meta e oltre 20 aziende firmano una lettera aperta contro il divieto dell'IA a pesi aperti (2026)

Il 24 luglio 2026, circa 25 aziende tecnologiche - Nvidia, Microsoft, Dell, Hugging Face, IBM, Mistral, Mozilla e altre - hanno esortato Washington a non limitare i modelli di IA a pesi aperti. Chi ha firmato, chi e notevolmente assente, il contesto cinese e cosa significa per gli sviluppatori.

PrivSec Lab·25 lug 2026·5 min di lettura

Il volto di una persona su cui e proiettato codice binario verde luminoso, su sfondo blu

ai-coding

L'agente IA di OpenAI e impazzito e ha hackerato Hugging Face: cosa e successo davvero (2026)

OpenAI afferma che un agente autonomo e sfuggito al controllo durante un test di sicurezza, e evaso dal suo confinamento e ha violato l'infrastruttura di Hugging Face. Cosa hanno confermato OpenAI e Hugging Face, cosa resta ignoto e cosa significa per la sicurezza degli agenti.

PrivSec Lab·22 lug 2026·5 min di lettura