alexi.sh
Tutti gli articoliSicurezza del browserPrivacy di reteStrumenti per la privacyModellazione delle minacceProgrammazione con IAStrumenti per sviluppatori

alexi.shLaboratorio di Ingegneria AI

ai-coding

Cos'è Ollama? Esegui LLMs Localmente nel 2026 (Guida per Principianti)

PrivSec Lab3 min di lettura
Un terminale a riga di comando su Ubuntu

Ollama è uno strumento open-source per scaricare ed eseguire modelli di linguaggio di grandi dimensioni localmente con un solo comando — Llama, Qwen, Mistral e altri, sulla tua macchina. Cos'è, come installarlo e usarlo, l'API REST, e i limiti onesti rispetto ai modelli cloud.

Se hai voluto eseguire l'IA sul tuo computer — senza cloud, senza chiave API, niente che lasci la tua macchina — Ollama è il modo più semplice per farlo nel 2026. È uno strumento open-source che scarica ed esegue modelli di linguaggio di grandi dimensioni localmente con un singolo comando. Questa guida spiega cos'è Ollama, come installarlo e usarlo, la sua API locale, e i limiti onesti rispetto ai modelli cloud.

Cos'è Ollama

Ollama raggruppa i pesi del modello, la configurazione e un runtime in modo che un comando funzioni:

ollama run qwen2.5

Questo scarica il modello al primo avvio e ti inserisce in una chat locale. Funziona su macOS, Linux e Windows, supporta molti modelli aperti (Llama, Qwen, Mistral, Gemma, DeepSeek e altri), e mantiene tutto sulla tua macchina. È il modo più semplice per iniziare con l'IA locale.

Un corridoio di una sala server fiancheggiato da rack

Installazione e utilizzo

Scarica l'installer per il tuo sistema operativo (o esegui lo script di installazione per Linux), poi:

ollama run llama3.2     # chatta con un modello (scarica al primo avvio)
ollama pull qwen2.5     # scarica un modello senza chattare
ollama list             # visualizza i modelli installati
ollama serve            # esegui l'API locale

È volutamente minimale: un comando per chattare, uno per scaricare, uno per servire.

L'API locale

Ollama esegue una API REST su http://localhost:11434 che app e script possono chiamare per generare testo, chattare o creare embeddings — così puoi costruire pipeline RAG, chatbot e assistenti di editor completamente sul dispositivo. Strumenti come l'estensione Continue (VS Code/JetBrains) si integrano direttamente con essa. Mantieni l'endpoint su localhost (non 0.0.0.0) in modo che non sia esposto sulla tua rete.

Perché le persone usano Ollama

  • Privacy: i prompt e i documenti rimangono locali — niente viene inviato a terzi. Vedi sovranità dei dati.
  • Costo: strumento gratuito, inferenza gratuita sull'hardware che possiedi.
  • Offline & riproducibile: funziona senza internet; lo stesso modello si comporta allo stesso modo indefinitamente.

Per scegliere il modello giusto da eseguire, vedi il miglior LLM locale per la programmazione e i migliori LLM per la programmazione 2026.

I limiti onesti

  • Hardware: hai bisogno di abbastanza RAM/VRAM per la dimensione del modello (un modello da 7B in ~6–8 GB a 4-bit; i modelli più grandi necessitano di più). Apple Silicon con memoria unificata funziona bene.
  • Capacità: i modelli locali da 7B–70B sono ottimi per redigere, riassumere, aiuto alla programmazione e RAG, ma i modelli ospitati più grandi sono ancora i migliori per il ragionamento più difficile e il contesto più lungo.
  • Licenze: i modelli hanno le proprie licenze — rispettale per l'uso commerciale.

Quindi il compromesso è chiaro: Ollama offre privacy, costo zero per token e uso offline; il cloud offre capacità massima. Per il lato cloud, vedi Cursor vs Copilot.

Conclusione

Ollama è il modo più semplice per eseguire LLMs localmente nel 2026: un comando, molti modelli aperti, un'API locale, e piena privacy perché niente lascia la tua macchina. Non corrisponderà al fronte assoluto dei modelli ospitati nei compiti più difficili, ma per chat private, aiuto alla programmazione, RAG sui tuoi file e uso offline, è veramente eccellente — e gratuito. Se l'IA locale e privata è il tuo obiettivo, Ollama è il punto di partenza.

Per andare oltre, abbina Ollama con il modello giusto in il miglior LLM locale per la programmazione, e leggi perché mantenere l'inferenza locale è importante in sovranità dei dati.

Guida editoriale basata sulle caratteristiche documentate di Ollama (runtime del modello locale, CLI, API REST su localhost, modelli aperti supportati) e sui compromessi documentati dei LLM locali rispetto a quelli ospitati. Dichiariamo chiaramente che i modelli locali sono indietro rispetto ai più grandi ospitati nei compiti più difficili. Nessuna relazione con i fornitori influenza questa guida.

Photo: Unsplash (source)

Disponibile anche in

FAQ

Cos'è Ollama?
Ollama è uno strumento gratuito e open-source che ti permette di scaricare ed eseguire modelli di linguaggio di grandi dimensioni (LLM) localmente sul tuo computer con un solo comando. Raggruppa i pesi del modello, la configurazione e un runtime in modo che 'ollama run llama3.2' funzioni — nessun account cloud, nessuna chiave API, nessun dato che lascia la tua macchina. Funziona su macOS, Linux e Windows, espone un'API REST locale per l'uso da parte delle app, e supporta molti modelli aperti (Llama, Qwen, Mistral, Gemma, DeepSeek e altri). Pensalo come il modo più semplice per iniziare con l'IA locale.
Come installo e uso Ollama?
Scarica l'installer per il tuo sistema operativo dal sito ufficiale (o usa lo script di installazione per Linux), poi in un terminale esegui 'ollama run <model>', ad esempio 'ollama run qwen2.5' — Ollama scarica il modello al primo avvio e ti inserisce in un prompt di chat. Altri comandi chiave: 'ollama pull <model>' per scaricare un modello, 'ollama list' per vedere quelli installati, e 'ollama serve' che esegue l'API locale. È volutamente minimale: un comando per chattare, uno per scaricare, uno per servire.
Ollama ha un'API?
Sì. Ollama esegue un'API REST locale (di default su http://localhost:11434) che app e script possono chiamare per generare testo, chattare o creare embeddings — così puoi costruire pipeline RAG, assistenti di editor e chatbot completamente sul dispositivo. Molti strumenti si integrano con essa direttamente, inclusa l'estensione Continue per VS Code/JetBrains. Poiché l'endpoint è locale, i tuoi prompt e dati non lasciano mai la tua macchina a meno che non esponi deliberatamente la porta.
Ollama è privato e gratuito?
Sì per entrambi. Ollama è open-source e gratuito, e esegue modelli interamente sul tuo hardware, quindi i tuoi prompt e documenti rimangono locali — niente viene inviato a un'API di terze parti. Questo lo rende una scelta forte per lavori sensibili o proprietari. Le due avvertenze: mantieni l'API vincolata a localhost (non 0.0.0.0) in modo che non sia esposta sulla tua rete, e ricorda che i modelli stessi hanno le proprie licenze che dovresti rispettare per l'uso commerciale.
Ollama è abbastanza buono rispetto a ChatGPT o Claude?
Per molti compiti, sì — ma onestamente, non al fronte assoluto. I modelli locali che esegui tramite Ollama (classe 7B–70B) sono eccellenti per redigere, riassumere, assistenza alla programmazione, RAG sui tuoi documenti, e uso offline/privato. I modelli ospitati più grandi sono ancora i migliori per il ragionamento più difficile e il contesto più lungo. Il compromesso è chiaro: Ollama ti offre privacy, costo zero per token e capacità offline; il cloud ti offre capacità massima. Molte persone usano entrambi.