Was sind Embeddings?
Embeddings sind numerische Repräsentationen von Text (oder anderen Daten). Ein Embedding-Modell nimmt Text als Input und gibt einen Vektor (Array von Zahlen) zurück, der die semantische Bedeutung des Textes kodiert.
Beispiel:
Text: "Der Hund läuft im Park." Embedding: [0.23, -0.19, 0.87, ..., 0.42] (1536 Dimensionen) Text: "Ein Hund spielt draußen." Embedding: [0.21, -0.17, 0.89, ..., 0.40] (ähnlich!) Text: "Quantenphysik ist komplex." Embedding: [-0.67, 0.92, -0.13, ..., -0.81] (sehr unterschiedlich)
Ähnliche Texte haben ähnliche Vektoren (mathematisch messbar mit Cosine Similarity). Das ist die Magie von Embeddings.
In einfachen Worten: Embeddings übersetzen Text in eine "Sprache", die Computer verstehen - Zahlen. Semantisch ähnliche Texte sind im Vektorraum nahe beieinander.