Grundlagen

Embeddings - Text als Vektoren

Wandeln Sie Text in mathematische Vektoren um. Embeddings sind die Grundlage für Semantic Search, RAG, Empfehlungssysteme und moderne KI-Anwendungen.

Lesedauer: ca. 8 Minuten | Level: Fortgeschritten

Abstraktes Netzwerk mit verbundenen Knoten - Symbolbild für Embeddings und Vektoren

Was sind Embeddings?

Embeddings sind numerische Repräsentationen von Text (oder anderen Daten). Ein Embedding-Modell nimmt Text als Input und gibt einen Vektor (Array von Zahlen) zurück, der die semantische Bedeutung des Textes kodiert.

Beispiel:

Text: "Der Hund läuft im Park."
Embedding: [0.23, -0.19, 0.87, ..., 0.42]  (1536 Dimensionen)

Text: "Ein Hund spielt draußen."
Embedding: [0.21, -0.17, 0.89, ..., 0.40]  (ähnlich!)

Text: "Quantenphysik ist komplex."
Embedding: [-0.67, 0.92, -0.13, ..., -0.81]  (sehr unterschiedlich)

Ähnliche Texte haben ähnliche Vektoren (mathematisch messbar mit Cosine Similarity). Das ist die Magie von Embeddings.

In einfachen Worten: Embeddings übersetzen Text in eine "Sprache", die Computer verstehen - Zahlen. Semantisch ähnliche Texte sind im Vektorraum nahe beieinander.

Warum Embeddings so wichtig sind

Vorteile

  • Semantisches Verständnis: "Auto" und "Fahrzeug" werden als ähnlich erkannt
  • Sprachunabhängig: Multilingual Embeddings funktionieren über Sprachen hinweg
  • Effizient: Vektor-Vergleich ist schneller als LLM-Calls
  • Skalierbar: Millionen Dokumente durchsuchbar in Millisekunden
  • Flexibel: Für Text, Code, Bilder, Audio nutzbar

Use Cases

  • Semantic Search: Suche nach Bedeutung, nicht nur Keywords
  • RAG (Retrieval): Finde relevante Dokumente für LLMs
  • Clustering: Gruppiere ähnliche Texte automatisch
  • Empfehlungen: "Ähnliche Artikel" finden
  • Duplikaterkennung: Finde fast-identische Inhalte

Einfaches Beispiel: Semantic Search

Szenario: Semantic Search in FAQs - Sie haben 1000 FAQ-Artikel. User fragt: "Wie ändere ich mein Passwort?"

Traditionelle Keyword-Suche:

Suche nach: "passwort" "ändern"
Ergebnis: Findet Artikel mit exakten Keywords
Problem: Verpasst "Kennwort zurücksetzen", "Zugangsdaten aktualisieren"

Mit Embeddings (Semantic Search):

1. Embedde User-Query: "Wie ändere ich mein Passwort?"
   -> Vektor A

2. Vergleiche mit allen FAQ-Embeddings:
   "Passwort zurücksetzen" -> Vektor B (Cosine Similarity: 0.92)
   "Kennwort ändern" -> Vektor C (Similarity: 0.89)
   "Login-Probleme" -> Vektor D (Similarity: 0.67)

3. Zeige Top-3 ähnlichste Artikel

Ergebnis: Findet ALLE relevanten Artikel, auch ohne exakte Keywords!

Das ist die Power von Embeddings: Sie verstehen Bedeutung, nicht nur Wörter.

Wie Embeddings funktionieren

Der Embedding-Prozess in 4 Schritten

1. Tokenization

Text wird in Tokens zerlegt (Wörter oder Subwords).
"Der Hund läuft" -> ["Der", "Hund", "läuft"]

2. Neural Network Processing

Tokens durchlaufen ein Transformer-Modell (BERT, RoBERTa, etc.).
Jedes Token wird in einen Vektor umgewandelt.

3. Pooling

Token-Vektoren werden zu einem einzigen Satz-Vektor zusammengefasst.
Methoden: Mean Pooling, CLS Token, Max Pooling

4. Normalization

Vektor wird normalisiert (meist L2-Norm).
Resultat: Ein Vektor mit fixer Dimension (z.B. 768 oder 1536).

Embedding-Modelle im Vergleich

Modell Dimensionen Sprachen Kosten
OpenAI text-embedding-3-large 3072 100+ $0.13/1M tokens
OpenAI text-embedding-3-small 1536 100+ $0.02/1M tokens
Cohere embed-english-v3.0 1024 Englisch $0.10/1M tokens
all-MiniLM-L6-v2 384 Englisch Kostenlos (lokal)
multilingual-e5-large 1024 100+ Kostenlos (lokal)

Empfehlung: OpenAI text-embedding-3-small für die meisten Use Cases (gutes Preis/Leistungs-Verhältnis). Für Deutsch: multilingual-e5-large (kostenlos) oder OpenAI (multilingual).

Similarity Metrics verstehen

Wie messen wir, ob zwei Vektoren ähnlich sind? Es gibt verschiedene Metriken.

1. Cosine Similarity (am häufigsten)

Misst den Winkel zwischen zwei Vektoren. Wert zwischen -1 und 1.

1.0 = identisch | 0.9+ = sehr ähnlich | 0.7-0.9 = ähnlich | <0.5 = kaum verwandt

Vorteil: Unabhängig von Vektor-Länge. Use Case: Text-Ähnlichkeit.

2. Euclidean Distance (L2)

Misst die direkte Distanz zwischen zwei Punkten im Raum.

0 = identisch | Je größer, desto unähnlicher

Vorteil: Intuitiv. Use Case: Clustering, wenn Magnitude wichtig ist.

3. Dot Product

Einfachstes Maß, aber nur wenn Vektoren normalisiert sind.

Je höher, desto ähnlicher (bei normalisierten Vektoren)

Vorteil: Schnellste Berechnung. Use Case: Wenn Speed kritisch ist.

Vector Databases & Indexing

Problem: Bei 1 Million Dokumenten können Sie nicht jeden Vektor einzeln vergleichen (zu langsam). Lösung: Approximierte Nearest Neighbor Suche (ANN).

HNSW (Hierarchical Navigable Small World)

Baut einen Graph, in dem ähnliche Vektoren verbunden sind. Suche "hüpft" durch den Graph.

Performance: 99%+ Recall bei 10-100x schneller
DBs: Weaviate, Qdrant, Milvus

IVF (Inverted File Index)

Clustere Vektoren in Buckets. Suche nur in den nächsten Buckets.

Performance: Schneller als Brute Force
DBs: Faiss (Meta), Pinecone

Häufige Fehler mit Embeddings

  • Falsche Metric: Cosine vs. Euclidean verwechseln (normalisierte vs. nicht-normalisierte Vektoren)
  • Zu lange Texte: Modelle haben Input-Limits (meist 512 Tokens) -> Text muss gesplittet werden
  • Keine Normalisierung: Vektoren sollten meist normalisiert sein (L2-Norm)
  • Mixed Languages: Multilingual-Modelle nutzen wenn mehrere Sprachen im Corpus
  • Veraltete Embeddings: Wenn Dokumente sich ändern, müssen Embeddings neu generiert werden

Best Practices

  1. Wähle das richtige Modell
    OpenAI für Convenience, Sentence-Transformers für self-hosting, Cohere für Enterprise.
  2. Normalisiere Vektoren
    Für Cosine Similarity immer L2-Normalisierung nutzen.
  3. Cache Embeddings
    Generiere Embeddings nur einmal, speichere sie. Nicht bei jedem Request neu berechnen.
  4. Nutze Vector DBs für Scale
    Ab 10k+ Dokumenten: Pinecone, Weaviate, Qdrant statt In-Memory.
  5. Teste verschiedene Chunk-Größen
    Für Retrieval: Teste 200, 500, 1000 Tokens. Optimale Größe ist domain-spezifisch.
  6. Monitor Embedding-Kosten
    Bei großen Datasets können Embedding-Costs signifikant sein. Batch-Processing nutzen.

Verwandte Konzepte

Embeddings praktisch nutzen?

Im 1:1 KI-Sparring lernen Sie Embeddings von Grund auf: Modell-Auswahl, Vector Databases, Similarity Search und RAG-Integration.

Kostenloses Erstgespräch buchen

Unverbindlich. Persönlich. 30 Minuten.