Embeddings - Text als Vektoren verstehen

Was sind Embeddings?

Embeddings sind numerische Repräsentationen von Text (oder anderen Daten). Ein Embedding-Modell nimmt Text als Input und gibt einen Vektor (Array von Zahlen) zurück, der die semantische Bedeutung des Textes kodiert.

Beispiel:

Text: "Der Hund läuft im Park."
Embedding: [0.23, -0.19, 0.87, ..., 0.42]  (1536 Dimensionen)

Text: "Ein Hund spielt draußen."
Embedding: [0.21, -0.17, 0.89, ..., 0.40]  (ähnlich!)

Text: "Quantenphysik ist komplex."
Embedding: [-0.67, 0.92, -0.13, ..., -0.81]  (sehr unterschiedlich)

Ähnliche Texte haben ähnliche Vektoren (mathematisch messbar mit Cosine Similarity). Das ist die Magie von Embeddings.

In einfachen Worten: Embeddings übersetzen Text in eine "Sprache", die Computer verstehen - Zahlen. Semantisch ähnliche Texte sind im Vektorraum nahe beieinander.

Warum Embeddings so wichtig sind

Vorteile

Semantisches Verständnis: "Auto" und "Fahrzeug" werden als ähnlich erkannt
Sprachunabhängig: Multilingual Embeddings funktionieren über Sprachen hinweg
Effizient: Vektor-Vergleich ist schneller als LLM-Calls
Skalierbar: Millionen Dokumente durchsuchbar in Millisekunden
Flexibel: Für Text, Code, Bilder, Audio nutzbar

Use Cases

Semantic Search: Suche nach Bedeutung, nicht nur Keywords
RAG (Retrieval): Finde relevante Dokumente für LLMs
Clustering: Gruppiere ähnliche Texte automatisch
Empfehlungen: "Ähnliche Artikel" finden
Duplikaterkennung: Finde fast-identische Inhalte

Einfaches Beispiel: Semantic Search

Szenario: Semantic Search in FAQs - Sie haben 1000 FAQ-Artikel. User fragt: "Wie ändere ich mein Passwort?"

Traditionelle Keyword-Suche:

Suche nach: "passwort" "ändern"
Ergebnis: Findet Artikel mit exakten Keywords
Problem: Verpasst "Kennwort zurücksetzen", "Zugangsdaten aktualisieren"

Mit Embeddings (Semantic Search):

1. Embedde User-Query: "Wie ändere ich mein Passwort?"
   -> Vektor A

2. Vergleiche mit allen FAQ-Embeddings:
   "Passwort zurücksetzen" -> Vektor B (Cosine Similarity: 0.92)
   "Kennwort ändern" -> Vektor C (Similarity: 0.89)
   "Login-Probleme" -> Vektor D (Similarity: 0.67)

3. Zeige Top-3 ähnlichste Artikel

Ergebnis: Findet ALLE relevanten Artikel, auch ohne exakte Keywords!

Das ist die Power von Embeddings: Sie verstehen Bedeutung, nicht nur Wörter.

Wie Embeddings funktionieren

Der Embedding-Prozess in 4 Schritten

1. Tokenization

Text wird in Tokens zerlegt (Wörter oder Subwords).
"Der Hund läuft" -> ["Der", "Hund", "läuft"]

2. Neural Network Processing

Tokens durchlaufen ein Transformer-Modell (BERT, RoBERTa, etc.).
Jedes Token wird in einen Vektor umgewandelt.

3. Pooling

Token-Vektoren werden zu einem einzigen Satz-Vektor zusammengefasst.
Methoden: Mean Pooling, CLS Token, Max Pooling

4. Normalization

Vektor wird normalisiert (meist L2-Norm).
Resultat: Ein Vektor mit fixer Dimension (z.B. 768 oder 1536).

Embedding-Modelle im Vergleich

Modell	Dimensionen	Sprachen	Kosten
OpenAI text-embedding-3-large	3072	100+	$0.13/1M tokens
OpenAI text-embedding-3-small	1536	100+	$0.02/1M tokens
Cohere embed-english-v3.0	1024	Englisch	$0.10/1M tokens
all-MiniLM-L6-v2	384	Englisch	Kostenlos (lokal)
multilingual-e5-large	1024	100+	Kostenlos (lokal)

Empfehlung: OpenAI text-embedding-3-small für die meisten Use Cases (gutes Preis/Leistungs-Verhältnis). Für Deutsch: multilingual-e5-large (kostenlos) oder OpenAI (multilingual).

Similarity Metrics verstehen

Wie messen wir, ob zwei Vektoren ähnlich sind? Es gibt verschiedene Metriken.

1. Cosine Similarity (am häufigsten)

Misst den Winkel zwischen zwei Vektoren. Wert zwischen -1 und 1.

1.0 = identisch | 0.9+ = sehr ähnlich | 0.7-0.9 = ähnlich | <0.5 = kaum verwandt

Vorteil: Unabhängig von Vektor-Länge. Use Case: Text-Ähnlichkeit.

2. Euclidean Distance (L2)

Misst die direkte Distanz zwischen zwei Punkten im Raum.

0 = identisch | Je größer, desto unähnlicher

Vorteil: Intuitiv. Use Case: Clustering, wenn Magnitude wichtig ist.

3. Dot Product

Einfachstes Maß, aber nur wenn Vektoren normalisiert sind.

Je höher, desto ähnlicher (bei normalisierten Vektoren)

Vorteil: Schnellste Berechnung. Use Case: Wenn Speed kritisch ist.

Vector Databases & Indexing

Problem: Bei 1 Million Dokumenten können Sie nicht jeden Vektor einzeln vergleichen (zu langsam). Lösung: Approximierte Nearest Neighbor Suche (ANN).

HNSW (Hierarchical Navigable Small World)

Baut einen Graph, in dem ähnliche Vektoren verbunden sind. Suche "hüpft" durch den Graph.

Performance: 99%+ Recall bei 10-100x schneller
DBs: Weaviate, Qdrant, Milvus

IVF (Inverted File Index)

Clustere Vektoren in Buckets. Suche nur in den nächsten Buckets.

Performance: Schneller als Brute Force
DBs: Faiss (Meta), Pinecone

Häufige Fehler mit Embeddings

Falsche Metric: Cosine vs. Euclidean verwechseln (normalisierte vs. nicht-normalisierte Vektoren)
Zu lange Texte: Modelle haben Input-Limits (meist 512 Tokens) -> Text muss gesplittet werden
Keine Normalisierung: Vektoren sollten meist normalisiert sein (L2-Norm)
Mixed Languages: Multilingual-Modelle nutzen wenn mehrere Sprachen im Corpus
Veraltete Embeddings: Wenn Dokumente sich ändern, müssen Embeddings neu generiert werden

Best Practices

        
            Wähle das richtige Modell

            OpenAI für Convenience, Sentence-Transformers für self-hosting, Cohere für Enterprise.
          
            Normalisiere Vektoren

            Für Cosine Similarity immer L2-Normalisierung nutzen.
          
            Cache Embeddings

            Generiere Embeddings nur einmal, speichere sie. Nicht bei jedem Request neu berechnen.
          
            Nutze Vector DBs für Scale

            Ab 10k+ Dokumenten: Pinecone, Weaviate, Qdrant statt In-Memory.
          
            Teste verschiedene Chunk-Größen

            Für Retrieval: Teste 200, 500, 1000 Tokens. Optimale Größe ist domain-spezifisch.
          
            Monitor Embedding-Kosten

            Bei großen Datasets können Embedding-Costs signifikant sein. Batch-Processing nutzen.

Embeddings praktisch nutzen?

Im 1:1 KI-Sparring lernen Sie Embeddings von Grund auf: Modell-Auswahl, Vector Databases, Similarity Search und RAG-Integration.

Kostenloses Erstgespräch buchen

Unverbindlich. Persönlich. 30 Minuten.

Embeddings - Text als Vektoren