Was ist ein Token?
Ein Token ist die kleinste Einheit, die ein Large Language Model verarbeiten kann. Stellen Sie sich Tokens als "Puzzleteile" vor, in die Text zerlegt wird - aber nicht nach Wörtern, sondern nach häufigen Mustern.
Faustregel:
1 Token = ca. 3/4 eines deutschen Wortes
1 Token = ca. 4 Zeichen (inkl. Leerzeichen)
Das bedeutet: "Hallo Welt" sind etwa 3 Tokens. "Künstliche Intelligenz" sind etwa 4 Tokens.
Wie funktioniert Tokenisierung?
LLMs können nicht direkt mit Text arbeiten - sie verarbeiten nur Zahlen. Der Prozess heißt Tokenisierung:
Beispiel: "ChatGPT ist intelligent"
Token 1: "Chat"
Token 2: "GPT"
Token 3: " ist" (mit Leerzeichen!)
Token 4: " intell"
Token 5: "igent"
4 Wörter = 5 Tokens
Warum nicht nach Wörtern? Weil häufige Wörter wie "der", "und" als einzelne Tokens gespeichert werden, während seltene Wörter in mehrere Tokens zerteilt werden. Das spart Speicher und macht das Modell effizienter.