Se hai voluto eseguire l'IA sul tuo computer — senza cloud, senza chiave API, niente che lasci la tua macchina — Ollama è il modo più semplice per farlo nel 2026. È uno strumento open-source che scarica ed esegue modelli di linguaggio di grandi dimensioni localmente con un singolo comando. Questa guida spiega cos'è Ollama, come installarlo e usarlo, la sua API locale, e i limiti onesti rispetto ai modelli cloud.
Cos'è Ollama
Ollama raggruppa i pesi del modello, la configurazione e un runtime in modo che un comando funzioni:
ollama run qwen2.5
Questo scarica il modello al primo avvio e ti inserisce in una chat locale. Funziona su macOS, Linux e Windows, supporta molti modelli aperti (Llama, Qwen, Mistral, Gemma, DeepSeek e altri), e mantiene tutto sulla tua macchina. È il modo più semplice per iniziare con l'IA locale.
Installazione e utilizzo
Scarica l'installer per il tuo sistema operativo (o esegui lo script di installazione per Linux), poi:
ollama run llama3.2 # chatta con un modello (scarica al primo avvio)
ollama pull qwen2.5 # scarica un modello senza chattare
ollama list # visualizza i modelli installati
ollama serve # esegui l'API locale
È volutamente minimale: un comando per chattare, uno per scaricare, uno per servire.
L'API locale
Ollama esegue una API REST su http://localhost:11434 che app e script possono chiamare per generare testo, chattare o creare embeddings — così puoi costruire pipeline RAG, chatbot e assistenti di editor completamente sul dispositivo. Strumenti come l'estensione Continue (VS Code/JetBrains) si integrano direttamente con essa. Mantieni l'endpoint su localhost (non 0.0.0.0) in modo che non sia esposto sulla tua rete.
Perché le persone usano Ollama
- Privacy: i prompt e i documenti rimangono locali — niente viene inviato a terzi. Vedi sovranità dei dati.
- Costo: strumento gratuito, inferenza gratuita sull'hardware che possiedi.
- Offline & riproducibile: funziona senza internet; lo stesso modello si comporta allo stesso modo indefinitamente.
Per scegliere il modello giusto da eseguire, vedi il miglior LLM locale per la programmazione e i migliori LLM per la programmazione 2026.
I limiti onesti
- Hardware: hai bisogno di abbastanza RAM/VRAM per la dimensione del modello (un modello da 7B in ~6–8 GB a 4-bit; i modelli più grandi necessitano di più). Apple Silicon con memoria unificata funziona bene.
- Capacità: i modelli locali da 7B–70B sono ottimi per redigere, riassumere, aiuto alla programmazione e RAG, ma i modelli ospitati più grandi sono ancora i migliori per il ragionamento più difficile e il contesto più lungo.
- Licenze: i modelli hanno le proprie licenze — rispettale per l'uso commerciale.
Quindi il compromesso è chiaro: Ollama offre privacy, costo zero per token e uso offline; il cloud offre capacità massima. Per il lato cloud, vedi Cursor vs Copilot.
Conclusione
Ollama è il modo più semplice per eseguire LLMs localmente nel 2026: un comando, molti modelli aperti, un'API locale, e piena privacy perché niente lascia la tua macchina. Non corrisponderà al fronte assoluto dei modelli ospitati nei compiti più difficili, ma per chat private, aiuto alla programmazione, RAG sui tuoi file e uso offline, è veramente eccellente — e gratuito. Se l'IA locale e privata è il tuo obiettivo, Ollama è il punto di partenza.
Per andare oltre, abbina Ollama con il modello giusto in il miglior LLM locale per la programmazione, e leggi perché mantenere l'inferenza locale è importante in sovranità dei dati.
Guida editoriale basata sulle caratteristiche documentate di Ollama (runtime del modello locale, CLI, API REST su localhost, modelli aperti supportati) e sui compromessi documentati dei LLM locali rispetto a quelli ospitati. Dichiariamo chiaramente che i modelli locali sono indietro rispetto ai più grandi ospitati nei compiti più difficili. Nessuna relazione con i fornitori influenza questa guida.


