alexi.sh
Alle ArtikelBrowser-SicherheitNetzwerk-PrivatsphäreDatenschutz-ToolsBedrohungsmodellierungKI-ProgrammierungDev-Tools

alexi.shAI Engineering Lab

ai-coding

Was ist RAG? Retrieval-Augmented Generation erklärt (2026)

PrivSec Lab3 Min. Lesezeit
Ein offener Laptop zeigt Code auf einem Schreibtisch

RAG (Retrieval-Augmented Generation) ermöglicht es einem LLM, aus Ihren eigenen Dokumenten zu antworten, indem es relevante Texte abruft und in den Prompt einfügt – anstatt sich nur auf das zu verlassen, was es sich gemerkt hat. Wie es funktioniert, warum es Halluzinationen reduziert und seine ehrlichen Grenzen.

Fragen Sie ein einfaches LLM nach den internen Dokumenten Ihres Unternehmens oder einem privaten Codebestand, und es wird entweder sagen, dass es es nicht weiß, oder schlimmer noch, selbstbewusst etwas erfinden – es wurde nie mit Ihren Daten trainiert. RAG (Retrieval-Augmented Generation) ist die Lösung, ohne etwas neu zu trainieren: Rufen Sie zuerst den relevanten Text ab und lassen Sie das Modell darauf basierend antworten. Dieser Leitfaden erklärt, was RAG ist, wie die Pipeline Schritt für Schritt funktioniert, warum es das Feintuning für Fakten übertrifft und seine ehrlichen Grenzen.

Was RAG tatsächlich ist

RAG kombiniert zwei Teile: einen Retriever, der relevante Passagen aus einer Wissensquelle findet, und einen Generator (das LLM), der eine Antwort unter Verwendung dieser Passagen schreibt. Anstatt zu hoffen, dass das Modell den richtigen Fakt während des Trainings gelernt hat, holen Sie den Fakt zur Antwortzeit und fügen ihn in den Prompt ein.

Das Schlüsselmodell: Das LLM lernt Ihre Dokumente nicht. Jedes Mal, wenn Sie fragen, zieht das System die relevanten Teile heraus und das Modell liest sie frisch – wie eine Prüfung mit offenen Büchern statt aus dem Gedächtnis.

Code auf einem Computerbildschirm
Code auf einem Bildschirm – eine RAG-Pipeline indexiert Ihre eigenen Dokumente oder den Codebestand, damit das Modell die relevanten Teile abrufen und zitieren kann.

Wie die Pipeline funktioniert

  1. Chunk – Dokumente in Passagen aufteilen, die klein genug sind, um präzise zu sein, aber groß genug, um den Kontext zu behalten.
  2. Embed – Jede Passage mit einem Einbettungsmodell in einen Vektor (eine numerische Darstellung der Bedeutung) umwandeln.
  3. Store – Die Vektoren in einer Vektordatenbank oder einem Index speichern.
  4. Retrieve – Die eingehende Frage einbetten und die ähnlichsten Passagen finden.
  5. Augment & generate – Die abgerufenen Passagen neben der Frage in den Prompt einfügen; das LLM antwortet darauf basierend, idealerweise mit Zitaten.

Aktualisieren Sie Ihr Wissen, indem Sie die Dokumente ändern – kein Neutraining, kein Warten.

RAG vs Feintuning

Ein häufiger Irrtum. Feintuning passt die Gewichte des Modells an – gut, um Stil oder Fähigkeiten zu ändern, schlecht und teuer, um Fakten einzufügen, und veraltet in dem Moment, in dem sich Ihre Daten ändern. RAG lässt das Modell unverändert und liefert Fakten zur Abfragezeit, sodass das Wissen aktuell, privat und zitierbar bleibt. Für "Fragen zu meinen Dokumenten oder Code beantworten" ist RAG fast immer das richtige Werkzeug. Greifen Sie zum Feintuning, um Verhalten zu ändern, nicht um eine Wissensbasis zu speichern.

Die ehrlichen Grenzen

RAG reduziert Halluzinationen, beseitigt sie aber nicht. Es ist nur so gut wie sein Abruf:

  • Wenn die richtige Passage nicht abgerufen wird, kann das Modell immer noch raten.
  • Wenn irrelevante Passagen eingefügt werden, können sie die Antwort irreführen.
  • Die Chunking-Strategie und das Einbettungsmodell sind oft wichtiger als das verwendete LLM.

RAG ist Verankerung, keine Garantie – betrachten Sie die Abrufqualität als das zu entwickelnde Element.

Es privat aufbauen

Sie können die gesamte Pipeline auf Ihrer eigenen Hardware ausführen: ein lokales Einbettungsmodell und LLM über Ollama, plus einen lokalen Vektorspeicher, sodass sensible Dokumente niemals Ihre Maschine verlassen. Für die Auswahl des Modells, das die endgültige Antwort generiert, siehe unseren Leitfaden zu den besten lokalen LLMs für das Codieren. Die Architektur ist identisch, egal ob Sie sie lokal oder in der Cloud ausführen – nur der Ort, an dem die Berechnung und die Daten stattfinden, ändert sich.

Das Fazit

RAG ist der praktische Weg, um ein LLM genau über Informationen antworten zu lassen, auf die es nie trainiert wurde: relevante Texte abrufen, die Antwort darauf basieren, die Quelle zitieren. Es übertrifft das Feintuning für Fakten, kann vollständig privat mit lokalen Modellen ausgeführt werden und reduziert Halluzinationen – solange Sie in guten Abruf investieren, denn RAG ist immer nur so stark wie die Passagen, die es zieht.

Photo: Unsplash (source)

Auch verfügbar in

FAQ

Was ist RAG?
RAG steht für Retrieval-Augmented Generation. Es ist eine Technik, die einem großen Sprachmodell Zugriff auf externes Wissen zur Antwortzeit gibt: Anstatt sich nur auf das zu verlassen, was das Modell während des Trainings gelernt hat, ruft das System zuerst relevante Passagen aus einer Dokumentensammlung (Ihr Wiki, Codebasis, PDFs) ab und fügt sie in den Prompt ein, sodass das Modell auf diesem abgerufenen Text basierend antwortet. Es ist der Standardweg, um ein LLM genau über private, spezifische oder aktuelle Informationen antworten zu lassen, auf die es nie trainiert wurde.
Wie funktioniert RAG Schritt für Schritt?
Fünf Stufen. (1) Chunk: Teilen Sie Ihre Dokumente in Passagen. (2) Embed: Konvertieren Sie jede Passage mit einem Einbettungsmodell in einen Vektor (eine numerische Darstellung der Bedeutung). (3) Store: Bewahren Sie diese Vektoren in einer Vektordatenbank oder einem Index auf. (4) Retrieve: Wenn eine Frage eingeht, betten Sie sie ebenfalls ein und finden die ähnlichsten Passagen. (5) Augment und generieren: Fügen Sie die abgerufenen Passagen neben der Frage in den Prompt ein, und das LLM schreibt eine Antwort darauf basierend. Das Modell 'lernt' Ihre Daten nie – es liest die relevanten Teile jedes Mal frisch.
Warum RAG anstelle von Feintuning verwenden?
Sie lösen unterschiedliche Probleme. Feintuning ändert die Gewichte des Modells, um seinen Stil oder seine Fähigkeiten anzupassen, aber es ist teuer, langsam zu aktualisieren und eine schlechte Methode, um Fakten einzufügen – das Modell kann immer noch selbstbewusst Details falsch wiedergeben. RAG hält das Modell unverändert und liefert Fakten zur Abfragezeit, sodass Sie Wissen einfach durch Ändern der Dokumente aktualisieren, Daten privat und aktuell halten und Quellen zitieren können. Für 'Fragen zu meinen Dokumenten/Code beantworten' ist RAG normalerweise das richtige Werkzeug; Feintuning ist für Verhaltensänderungen, nicht für das Speichern einer Wissensbasis.
Stoppt RAG Halluzinationen?
Es reduziert sie, beseitigt sie aber nicht. Indem es Antworten in abgerufenen Quellentexten verankert, macht RAG das Modell weit weniger wahrscheinlich, Fakten zu erfinden, und ermöglicht es Ihnen, Zitate anzuzeigen. Aber es ist nur so gut wie sein Abruf: Wenn die richtige Passage nicht abgerufen wird, kann das Modell immer noch raten, und wenn irrelevante Passagen eingefügt werden, kann die Antwort irreführend sein. Gute Chunking-Strategie, ein solides Einbettungsmodell und das Zurückgeben von genügend relevantem Kontext sind wichtiger als die Wahl des LLM. RAG ist Verankerung, keine Garantie.
Kann ich RAG privat auf meiner eigenen Maschine aufbauen?
Ja. Sie können die gesamte Pipeline lokal ausführen: ein lokales Einbettungsmodell und LLM über ein Tool wie Ollama, plus einen lokalen Vektorspeicher, sodass Ihre Dokumente niemals Ihre Maschine verlassen. Das macht RAG zu einer starken Lösung für sensible oder proprietäre Daten – interne Dokumente, privater Code – bei denen das Senden von Inhalten an eine gehostete API nicht akzeptabel ist. Der Kompromiss ist der übliche lokale-vs-Cloud-Vergleich: lokal bietet Privatsphäre und keine Kosten pro Abfrage; die größten gehosteten Modelle führen immer noch bei den schwierigsten Schlussfolgerungen.