Wenn Sie KI nutzen wollen, ohne dass Ihre Prompts je Ihren Computer verlassen, ist ein lokales LLM die Antwort. Ein großes Sprachmodell auf Ihrem eigenen Rechner laufen zu lassen bedeutet, dass Ihre Eingabe auf dem Gerät verarbeitet und nie in die Cloud gesendet wird - das Gegenteil von ChatGPT, Claude oder Gemini. Dieser Leitfaden behandelt, warum lokal privater ist, welche Werkzeuge und Open-Weight-Modelle Sie für den Datenschutz wählen, welche Hardware Sie brauchen und die ehrlichen Kompromisse.
Die kurze Antwort
Betreiben Sie das Modell lokal und Ihre Daten bleiben bei Ihnen. Werkzeuge wie Ollama oder llama.cpp laden ein Open-Weight-Modell auf Ihre Hardware und erledigen die gesamte Verarbeitung dort - kein Konto, kein Upload, funktioniert offline. Bei Cloud-Chatbots wird jeder Prompt an die Server des Anbieters übertragen. Für private Gespräche - juristisch, medizinisch, proprietärer Code, persönliche Notizen - beseitigt lokale Inferenz diese Exposition vollständig.
Warum lokal privater ist als ChatGPT oder die Cloud
Bei einem Cloud-Dienst reist Ihr Prompt - und alles, was Sie hineinkopieren - über das Netzwerk zu den Servern des Anbieters, um verarbeitet zu werden. Sofern Sie nicht widersprochen haben, kann diese Eingabe zum Training künftiger Modelle genutzt werden. Sie brauchen zudem ein Konto, und die Daten werden auf fremder Infrastruktur aufbewahrt.
Ein lokales Modell dreht all das um:
- Nichts verlässt das Gerät. Ihre Prompts und Dokumente werden auf Ihrer eigenen CPU/GPU verarbeitet.
- Kein Konto, funktioniert offline. Rufen Sie das Modell einmal ab, dann nutzen Sie es ohne Internetverbindung.
- Kein Training mit Ihren Daten. Das Modell ist eine statische Datei; die Inferenz sendet Ihre Eingabe nirgendwohin.
Das macht lokal zur natürlichen Wahl für alles Vertrauliche - und darum greifen jene, die Ollama nutzen, bei sensibler Arbeit dazu.
Die Werkzeuge, um ein Modell lokal zu betreiben
Sie betreiben die Gewichte nicht von Hand - eine Runtime tut es für Sie:
- Ollama - die einfachste CLI. Ein Befehl (
ollama run llama3.1) lädt ein Modell herunter und startet es. Open-Source, ohne Telemetrie. - LM Studio - eine benutzerfreundliche GUI für alle, die Klicken dem Terminal vorziehen.
- llama.cpp - die leichtgewichtige, quelloffene Engine, auf der viele Werkzeuge aufbauen; maximale Kontrolle.
- GPT4All und Jan - weitere Desktop-Apps, die Modelle und eine Chat-Oberfläche bündeln.
Ollama und llama.cpp sind quelloffen und funken nicht nach Hause, was sie zu den sichersten Standards für den Datenschutz macht. Für eine vollständige Einführung sehen Sie was Ollama ist.
Welche Open-Weight-Modelle für den Datenschutz wählen
Jedes Open-Weight-Modell, das Sie lokal betreiben, ist privat - die Inferenz findet auf Ihrem Rechner statt. Die eigentliche Wahl ist Leistungsfähigkeit gegenüber dem, was Ihre Hardware fassen kann. Die starken Familien, die lokal ohne Telemetrie laufen:
| Modell | Größe | Typischer RAM (4 Bit) | Gut für |
|---|---|---|---|
| Mistral 7B | 7B | ~6-8 GB | Leichte Laptops, schneller Alltagseinsatz |
| Llama 3.1 8B | 8B | ~6-8 GB | Beste Balance auf Consumer-Hardware |
| Gemma 2 (Google) | 9B / 27B | ~8 GB / ~20 GB | Hochwertiges Verfassen, Zusammenfassen |
| Qwen 2.5 | 14B / 32B | ~12 GB / ~24 GB | Leistungsfähiger, braucht mehr VRAM |
| Phi (Microsoft) | klein | ~4-6 GB | Sehr kleine Rechner |
| DeepSeek | variiert | variiert | Reasoning-orientierte offene Gewichte |
Praktische Wahl: Auf einem typischen Laptop ist Llama 3.1 8B oder Mistral 7B, auf 4 Bit quantisiert, der Sweet Spot. Mit einer stärkeren GPU geben Ihnen Qwen 2.5 14B/32B oder Gemma 2 27B mehr Leistung und laufen dennoch vollständig offline.
Hardware: was Sie brauchen (und Quantisierung)
Die Anforderungen skalieren mit der Parameterzahl des Modells:
- Klein (3-8B): laufen auf einem modernen Laptop mit 8-16 GB RAM, auf CPU oder einer bescheidenen GPU.
- Groß (70B): brauchen eine leistungsstarke GPU (24 GB+ VRAM), sonst laufen sie langsam.
Der Hebel, der das praktikabel macht, ist die Quantisierung - die Gewichte des Modells in geringerer Präzision zu speichern, typischerweise in 4 Bit, was den Speicherbedarf drastisch senkt bei nur geringem Qualitätsverlust. Deshalb passt ein 8B-Modell in etwa 6-8 GB statt in viel mehr. Beginnen Sie mit einem kleinen quantisierten Modell, sehen Sie, wie es läuft, und skalieren Sie nur hoch, wenn Ihre Hardware es erlaubt.
Die ehrlichen Kompromisse
Lokal ist privater, aber nicht frei von Kompromissen:
- Weniger leistungsfähig. Lokale 7-32B-Modelle liegen hinter den Frontier-Cloud-Modellen (GPT-5, Claude) bei den schwierigsten Reasoning- und Langkontext-Aufgaben.
- Langsamer. Auf Consumer-Hardware ist die Generierung langsamer als eine gehostete API, die aus einem Rechenzentrum antwortet.
- Sie verwalten die Updates. Neue Modellversionen abzurufen und Ihr Werkzeug aktuell zu halten liegt bei Ihnen.
Für private, sensible oder Offline-Arbeit lohnt sich der Kompromiss meist. Für Spitzenleistung bei einem harten einmaligen Problem führt die Cloud weiterhin - viele nutzen beides. Wenn Ihr Ziel ist, Daten auf dem Gerät zu halten, sehen Sie KI und Datenschutz.
Der Vorbehalt: stellen Sie sicher, dass das Werkzeug nicht nach Hause funkt
Der Datenschutz von "lokal" hängt davon ab, dass das Werkzeug nichts überträgt, nicht nur vom Modell. Ollama und llama.cpp sind quelloffen und senden keine Nutzungsdaten. Manche GUI-Apps haben optionale Telemetrie - prüfen Sie die Einstellungen und schalten Sie sie ab. Modellgewichte von Hugging Face herunterzuladen ist normal und in Ordnung; das ist eine einmalige Übertragung, und die Inferenz bleibt lokal. Prüfen Sie die Runtime, dann verlassen Ihre Prompts wirklich nie den Rechner.
Das Fazit
Ein lokales LLM ist die privateste Art, KI zu nutzen: Ihre Daten bleiben auf Ihrem Gerät, es funktioniert offline, ohne Konto und ohne Training mit Ihrer Eingabe. Wählen Sie ein Open-Weight-Modell (Llama 3.1 8B oder Mistral 7B zum Start), betreiben Sie es mit Ollama oder llama.cpp, nutzen Sie 4-Bit-Quantisierung, um auf Ihre Hardware zu passen, und prüfen Sie, dass das Werkzeug keine Telemetrie hat. Es wird die Frontier-Cloud-Modelle bei den schwierigsten Aufgaben nicht erreichen - aber für vertrauliche Arbeit ist das ein lohnender Kompromiss. Wenn Sie das beste Modell zum Kombinieren wollen, sehen Sie das beste lokale LLM zum Programmieren.
Um weiterzugehen, lernen Sie die Runtime in was Ollama ist, wählen Sie ein Modell in das beste lokale LLM zum Programmieren und lesen Sie, warum Verarbeitung auf dem Gerät zählt, in KI und Datenschutz.
Redaktioneller Leitfaden auf Basis des dokumentierten Verhaltens lokaler LLM-Runtimes (Inferenz auf dem Gerät, keine Netzwerkübertragung) gegenüber Cloud-Chatbots (Eingabe an Anbieterserver gesendet, mögliche Trainingsnutzung, sofern nicht widersprochen), der dokumentierten Speichereffekte der 4-Bit-Quantisierung und der dokumentierten Leistungslücke zwischen lokalen Open-Weight-Modellen und den größten gehosteten Modellen. Wir sagen klar, dass lokale Modelle bei den schwierigsten Aufgaben hinter der Frontier liegen und dass manche GUI-Apps optionale Telemetrie tragen. Keine Anbieterbeziehung beeinflusst diesen Leitfaden.
Verwandte Leitfäden: Was ist Ollama?


