Se quer usar IA sem que os seus prompts alguma vez saiam do seu computador, um LLM local é a resposta. Correr um grande modelo de linguagem na sua própria máquina significa processar a sua entrada no dispositivo e nunca a enviar para a cloud - o oposto do ChatGPT, Claude ou Gemini. Este guia aborda porque é que o local é mais privado, que ferramentas e modelos open-weight escolher para a privacidade, o hardware necessário e os compromissos honestos.
A resposta curta
Corra o modelo localmente e os seus dados ficam consigo. Ferramentas como o Ollama ou o llama.cpp carregam um modelo open-weight no seu hardware e fazem lá todo o processamento - sem conta, sem carregamento, funciona offline. Com os chatbots cloud, cada prompt é transmitido aos servidores do fornecedor. Para conversas privadas - jurídico, médico, código proprietário, notas pessoais - a inferência local remove por completo essa exposição.
Porque o local é mais privado do que o ChatGPT ou a cloud
Com um serviço cloud, o seu prompt - e tudo o que lá colar - viaja pela rede até aos servidores do fornecedor para ser processado. Salvo opt-out, essa entrada pode servir para treinar modelos futuros. Também precisa de uma conta, e os dados são retidos na infraestrutura de terceiros.
Um modelo local inverte tudo isto:
- Nada sai do dispositivo. Os seus prompts e documentos são processados na sua própria CPU/GPU.
- Sem conta, funciona offline. Obtenha o modelo uma vez, depois use-o sem ligação à internet.
- Sem treino com os seus dados. O modelo é um ficheiro estático; a inferência não envia a sua entrada para lado nenhum.
Isto torna o local a escolha natural para tudo o que é confidencial - e é por isso que quem usa Ollama recorre a ele no trabalho sensível.
As ferramentas para executar um modelo localmente
Não executa os pesos à mão - um runtime fá-lo por si:
- Ollama - a CLI mais simples. Um comando (
ollama run llama3.1) descarrega e corre um modelo. Open-source, sem telemetria. - LM Studio - uma GUI acessível para quem prefere clicar ao terminal.
- llama.cpp - o motor open-source leve sobre o qual muitas ferramentas são construídas; controlo máximo.
- GPT4All e Jan - outras apps de desktop que juntam modelos e uma interface de chat.
O Ollama e o llama.cpp são open-source e não fazem 'phone home', o que os torna as opções mais seguras para a privacidade. Para uma introdução completa, veja o que é o Ollama.
Que modelos open-weight escolher para a privacidade
Qualquer modelo open-weight que corra localmente é privado - a inferência acontece na sua máquina. A verdadeira escolha é a capacidade face ao que o seu hardware consegue conter. As famílias sólidas que correm localmente sem telemetria:
| Modelo | Tamanho | RAM típica (4 bits) | Bom para |
|---|---|---|---|
| Mistral 7B | 7B | ~6-8 GB | Portáteis leves, uso diário rápido |
| Llama 3.1 8B | 8B | ~6-8 GB | Melhor equilíbrio em hardware de consumo |
| Gemma 2 (Google) | 9B / 27B | ~8 GB / ~20 GB | Redação de qualidade, resumos |
| Qwen 2.5 | 14B / 32B | ~12 GB / ~24 GB | Mais capaz, exige mais VRAM |
| Phi (Microsoft) | pequeno | ~4-6 GB | Máquinas muito pequenas |
| DeepSeek | variável | variável | Pesos abertos orientados ao raciocínio |
Escolha prática: num portátil típico, Llama 3.1 8B ou Mistral 7B quantizado a 4 bits é o ponto ideal. Com uma GPU mais forte, Qwen 2.5 14B/32B ou Gemma 2 27B dão-lhe mais capacidade mantendo-se totalmente offline.
Hardware: o que precisa (e a quantização)
Os requisitos aumentam com o número de parâmetros do modelo:
- Pequenos (3-8B): correm num portátil moderno com 8-16 GB de RAM, em CPU ou numa GPU modesta.
- Grandes (70B): precisam de uma GPU potente (24 GB+ de VRAM), caso contrário são lentos.
A alavanca que torna isto praticável é a quantização - armazenar os pesos do modelo em precisão reduzida, normalmente a 4 bits, o que diminui fortemente as necessidades de memória com apenas uma pequena perda de qualidade. É por isso que um modelo 8B cabe em cerca de 6-8 GB em vez de muito mais. Comece com um pequeno modelo quantizado, veja o desempenho, e avance apenas se o seu hardware o permitir.
Os compromissos honestos
O local é mais privado, mas não isento de compromissos:
- Menos capaz. Os modelos locais de 7 a 32B ficam atrás dos modelos cloud de fronteira (GPT-5, Claude) no raciocínio mais difícil e de contexto mais longo.
- Mais lento. Em hardware de consumo, a geração é mais lenta do que uma API alojada a responder a partir de um datacenter.
- Gere as atualizações. Obter as novas versões de modelos e manter a ferramenta atualizada é consigo.
Para trabalho privado, sensível ou offline, o compromisso costuma valer a pena. Para capacidade de topo num problema difícil pontual, a cloud ainda lidera - muitos usam ambos. Se o seu objetivo é manter os dados no dispositivo, veja IA e privacidade dos dados.
A ressalva: certifique-se de que a ferramenta não faz 'phone home'
A privacidade do "local" depende de a ferramenta não transmitir nada, não apenas do modelo. O Ollama e o llama.cpp são open-source e não enviam dados de utilização. Algumas apps GUI têm telemetria opcional - verifique as definições e desative-a. Descarregar os pesos do Hugging Face é normal e sem problema; é uma transferência única, e a inferência mantém-se local. Verifique o runtime, e os seus prompts realmente nunca saem da máquina.
Conclusão
Um LLM local é a forma mais privada de usar IA: os seus dados ficam no seu dispositivo, funciona offline, sem conta e sem treino com a sua entrada. Escolha um modelo open-weight (Llama 3.1 8B ou Mistral 7B para começar), corra-o com o Ollama ou o llama.cpp, use a quantização a 4 bits para caber no seu hardware, e verifique que a ferramenta não tem telemetria. Não igualará os modelos cloud de fronteira nas tarefas mais difíceis - mas para trabalho confidencial, é um compromisso que vale a pena. Se quiser o melhor modelo para o acompanhar, veja o melhor LLM local para programar.
Para ir mais longe, aprenda o runtime em o que é o Ollama, escolha um modelo em o melhor LLM local para programar, e perceba porque o processamento no dispositivo importa em IA e privacidade dos dados.
Guia editorial baseado no comportamento documentado dos runtimes de LLM locais (inferência no dispositivo, sem transmissão de rede) face aos chatbots cloud (entrada enviada aos servidores do fornecedor, possível uso para treino salvo opt-out), nos efeitos de memória documentados da quantização a 4 bits, e no fosso de capacidade documentado entre modelos open-weight locais e os maiores modelos alojados. Indicamos claramente que os modelos locais ficam atrás da fronteira nas tarefas mais difíceis e que algumas apps GUI trazem telemetria opcional. Nenhuma relação comercial influencia este guia.
Guias relacionados: O que é o Ollama?


