ai-coding

Was ist eine Vektordatenbank? Ein verständlicher Leitfaden (2026)

PrivSec Lab22. Juni 20265 Min. Lesezeit

Ein Rack-Server mit mehreren Laufwerksschächten

Eine Vektordatenbank speichert Daten als Vektoren (Embeddings) und findet Einträge nach Bedeutung, nicht nach exakter Übereinstimmung. Was sie ist, wie die Ähnlichkeitssuche funktioniert, wie sie sich von einer normalen Datenbank unterscheidet und warum RAG und KI-Suche auf sie angewiesen sind.

Wenn Sie über RAG, KI-Suche oder Empfehlungen gelesen haben, sind Sie wahrscheinlich auf den Begriff Vektordatenbank gestoßen. Hier ist die einfache Erklärung. Eine Vektordatenbank speichert Daten als Vektoren - Zahlenlisten, die Bedeutung erfassen - und findet Einträge nach Ähnlichkeit, nicht nach exakter Übereinstimmung. Diese eine Idee lässt moderne KI-Suche so wirken, als würde sie Sie verstehen.

Was eine Vektordatenbank wirklich ist

Normale Datenbanken sind gut bei exakten Fragen: finde den Nutzer mit dieser ID oder jede Bestellung aus der letzten Woche. Sie tun sich schwer mit „finde mir Dinge, die dasselbe bedeuten“. Eine Vektordatenbank ist genau dafür gebaut.

Sie arbeitet mit Embeddings - den numerischen Fingerabdrücken, die ein KI-Modell Text, Bildern oder Audio gibt. Einträge mit ähnlicher Bedeutung bekommen Vektoren, die nah beieinander liegen. Die Datenbank speichert diese Vektoren und gibt bei einer Suche die zurück, die Ihrer Anfrage am nächsten liegen.

Hardware-Speicher — Eine Vektordatenbank hält Millionen von Embeddings auf der Festplatte und im Speicher und durchsucht sie in Millisekunden nach Ähnlichkeit.

Wie die Ähnlichkeitssuche funktioniert

Der Ablauf hat drei Schritte:

Einbetten. Ein Embedding-Modell wandelt jedes Dokument, Bild oder jeden Satz in einen Vektor um.
Indizieren. Die Datenbank speichert diese Vektoren in einem speziellen Index (wie HNSW oder IVF), damit sie riesige Mengen schnell durchsuchen kann.
Abfragen. Auch Ihre Suche wird in einen Vektor umgewandelt. Die Datenbank gibt die Vektoren zurück, die ihr nach Abstand am nächsten liegen.

So kann eine Suche nach „wie setze ich mein Passwort zurück“ einen Artikel mit dem Titel „vergessenen Login wiederherstellen“ zutage fördern. Die Wörter sind anders, aber die Bedeutung - und die Vektoren - liegen nah beieinander.

Vektordatenbank vs. normale Datenbank

Sie lösen unterschiedliche Probleme, und die meisten echten Apps nutzen beide. Eine relationale Datenbank hält Ihre strukturierten Datensätze und beantwortet exakte Abfragen. Eine Vektordatenbank beantwortet „was ist diesem am ähnlichsten?“. Sie behalten Kundenzeilen in der einen und durchsuchbare Bedeutung in der anderen. Werkzeuge wie pgvector lassen Sie sogar die Vektorsuche zu einer normalen PostgreSQL-Datenbank hinzufügen, sodass beides an einem Ort liegt.

Warum es für KI wichtig ist

Eine Vektordatenbank ist der Abrufmotor hinter vieler KI. Sie treibt die semantische Suche an, Produkt- und Inhaltsempfehlungen und - am wichtigsten - den Abrufschritt in RAG, bei dem ein Assistent relevanten Text holt, bevor er antwortet. Ohne schnelle Ähnlichkeitssuche über Embeddings wäre keine dieser Funktionen im großen Maßstab praktikabel.

Wie die Suche schnell bleibt: die ungefähre Nächste-Nachbar-Suche

Den Vektor Ihrer Anfrage mit jedem gespeicherten Vektor zu vergleichen - eine exakte Nächste-Nachbar-Suche - ist genau, aber langsam, sobald Sie Millionen von Einträgen haben. Deshalb setzen Vektordatenbanken auf Algorithmen für die ungefähre Nächste-Nachbar-Suche (ANN). ANN tauscht ein klein wenig Genauigkeit gegen einen enormen Geschwindigkeitsgewinn: Statt jeden Vektor zu prüfen, durchläuft sie eine clevere Indexstruktur, die ihr fast die nächsten Treffer liefert - schnell.

Zwei Indexfamilien erledigen den Großteil der Arbeit:

HNSW (Hierarchical Navigable Small World) baut einen mehrschichtigen Graphen auf, den man schnell durchspringen kann. Es ist die häufigste Voreinstellung - starke Trefferquote, geringe Latenz, mehr Speicher.
IVF (Inverted File) gruppiert Vektoren in Behälter und durchsucht nur die nächstgelegenen. Es skaliert auf sehr große Mengen und braucht weniger Speicher, oft kombiniert mit Kompression (PQ), um die Vektoren zu verkleinern.

Die Stellschraube ist Trefferquote gegen Latenz: Fordern Sie eine höhere Trefferquote (mehr der echten nächsten Nachbarn), arbeitet die Suche mehr. Die Distanz wird mit einer Metrik gemessen - meist Kosinus-Ähnlichkeit (der Winkel zwischen Vektoren), Skalarprodukt oder euklidische (L2-) Distanz - und das verwendete Embedding-Modell gibt in der Regel vor, welche richtig ist.

Gängige Vektordatenbanken - und wann welche

Es gibt keine einzelne „beste“ Option; die richtige Wahl hängt vom Umfang ab, davon, ob Sie einen verwalteten Dienst möchten oder selbst hosten wollen, und davon, ob Sie Vektoren neben bestehenden relationalen Daten brauchen. Die verbreiteten Optionen 2026:

Datenbank	Modell	Gut geeignet, wenn…
pgvector	PostgreSQL-Erweiterung	Sie bereits Postgres betreiben und Vektoren neben Ihren normalen Daten wollen - eine Datenbank, kein zusätzlicher Dienst.
Chroma	Open Source, einbettbar	Prototyping oder eine kleine App; lokal schnell startklar.
Qdrant	Open Source, selbst gehostet oder verwaltet	Sie wollen reichhaltiges Metadaten-Filtering und gute Performance mit Kontrolle über das Hosting.
Weaviate	Open Source, selbst gehostet oder verwaltet	Sie wollen integrierte Module (Hybridsuche, Vektorisierung) und einen schema-first-Ansatz.
Milvus	Open Source, für Skalierung gebaut	Sehr große Sammlungen (Hunderte Millionen und mehr) und Workloads mit hohem Durchsatz.
Pinecone	Voll verwaltet (proprietär)	Sie wollen einen unkomplizierten, serverlosen Dienst und keine Infrastruktur betreiben.

Eine einfache Faustregel: Beginnen Sie mit pgvector, wenn Sie bereits PostgreSQL nutzen, oder mit Chroma für einen schnellen Prototyp; greifen Sie zu Qdrant, Weaviate oder Milvus, wenn Sie Skalierung, Filterung oder Kontrolle über das Self-Hosting brauchen; wählen Sie Pinecone, wenn Sie einen verwalteten Dienst ohne Betrieb wollen. Die meisten Teams nutzen zudem Hybridsuche - die Kombination aus Vektorähnlichkeit und klassischer Stichwortsuche - für das Beste aus beidem.

Das Fazit

Eine Vektordatenbank speichert Bedeutung als Vektoren und findet Einträge nach Ähnlichkeit statt nach exakter Übereinstimmung. Sie ersetzt Ihre normale Datenbank nicht - sie steht daneben und beantwortet die Fragen, die eine Stichwortsuche nie konnte. Wenn Sie irgendetwas mit semantischer Suche oder RAG bauen, ist die Vektordatenbank das Teil, das die Schwerstarbeit leistet.

Photo: Pixabay (source)

Auch verfügbar in

EN FR ES IT PT

FAQ

Was ist eine Vektordatenbank in einfachen Worten?

Eine Vektordatenbank speichert Daten als Vektoren - lange Zahlenlisten, sogenannte Embeddings, die Bedeutung erfassen. Statt exakte Wörter abzugleichen, findet sie Einträge, deren Vektoren dem Vektor Ihrer Anfrage am nächsten liegen. So kann eine Suche nach „wie setze ich mein Passwort zurück“ einen Hilfeartikel mit dem Titel „vergessenen Login wiederherstellen“ zurückgeben, weil beide dasselbe meinen. Sie ist der Motor hinter semantischer Suche, Empfehlungen und dem Abrufschritt in den meisten KI-Assistenten.

Wie unterscheidet sich eine Vektordatenbank von einer normalen Datenbank?

Eine normale (relationale) Datenbank ist für exakte, strukturierte Abfragen gebaut: finde die Zeile, in der id = 42 ist, oder in der land = „Frankreich“ ist. Eine Vektordatenbank ist für Ähnlichkeit gebaut: finde die Einträge, die diesem am ähnlichsten sind. Sie sucht keine exakte Übereinstimmung - sie ordnet Ergebnisse danach, wie nah ihre Vektoren beieinander liegen. Beide ergänzen sich. Viele Apps nutzen eine normale Datenbank für Datensätze und eine Vektordatenbank für die bedeutungsbasierte Suche.

Wie funktioniert die Ähnlichkeitssuche wirklich?

Drei Schritte. Erstens wandelt ein Embedding-Modell jeden Eintrag (ein Dokument, ein Bild oder einen Satz) in einen Vektor um. Zweitens speichert die Vektordatenbank diese Vektoren in einem speziellen Index (wie HNSW oder IVF), der die Nächste-Nachbar-Suche schnell macht, selbst über Millionen von Einträgen. Drittens wird eine eingehende Anfrage ebenfalls in einen Vektor umgewandelt, und die Datenbank gibt die Vektoren zurück, die ihr nach Abstand am nächsten liegen. Sie erhalten die ähnlichsten Einträge in Millisekunden zurück.

Welche Vektordatenbanken sind 2026 beliebt?

Gängige Optionen sind Pinecone, Weaviate, Qdrant, Milvus und Chroma, dazu pgvector, das PostgreSQL um die Vektorsuche erweitert, sodass Sie alles in einer Datenbank behalten können. Die richtige Wahl hängt vom Umfang ab, davon, ob Sie einen verwalteten Dienst möchten oder selbst hosten wollen, und davon, ob Sie Vektoren neben Ihren bestehenden relationalen Daten brauchen. Für kleine Projekte sind pgvector oder Chroma einfache Einstiegspunkte.

Was ist eine Vektordatenbank? Ein verständlicher Leitfaden (2026)

Was eine Vektordatenbank wirklich ist

Wie die Ähnlichkeitssuche funktioniert

Vektordatenbank vs. normale Datenbank

Warum es für KI wichtig ist

Wie die Suche schnell bleibt: die ungefähre Nächste-Nachbar-Suche

Gängige Vektordatenbanken - und wann welche

Das Fazit

FAQ

Verwandte Forschung

Copilot Code Review bekommt Agent Skills und MCP: Was sich ändert und die Read-only-Grenze

Claude Opus 5 ist jetzt in GitHub Copilot: Wer es bekommt, wie abgerechnet wird und der Sicherheitsvorbehalt

Nvidia, Microsoft, Meta und uber 20 Firmen unterzeichnen einen offenen Brief gegen ein Verbot von Open-Weight-KI (2026)