Grundlagen

Context Window - Das Gedächtnis von LLMs

Das Context Window bestimmt, wie viel Text ein LLM gleichzeitig "sehen" und verarbeiten kann. Von ganzen Büchern bis zu kurzen Notizen - verstehen Sie die Grenzen und Möglichkeiten.

Lesedauer: ca. 6 Minuten | Level: Einsteiger

Context Window - das Gedächtnis von LLMs visualisiert

Was ist ein Context Window?

Das Context Window (auch Context Length genannt) ist die maximale Anzahl an Tokens, die ein Large Language Model in einer Anfrage verarbeiten kann. Es ist wie das "Kurzzeitgedächtnis" des Modells - alles, was nicht in dieses Fenster passt, wird nicht berücksichtigt.

Beispiel-Rechnung:

GPT-4: 128K Tokens = ca. 96.000 Wörter = ca. 200 Seiten Text

Claude: 200K Tokens = ca. 150.000 Wörter = ca. 300 Seiten Text

Gemini: 1M Tokens = ca. 750.000 Wörter = ca. 1.500 Seiten Text

Das Context Window umfasst sowohl Ihre Eingabe (Prompt) als auch die Antwort des Modells. Bei längeren Konversationen summieren sich alle Nachrichten auf.

Warum ist das Context Window wichtig?

Dokumentenanalyse

Je größer das Context Window, desto mehr Text können Sie gleichzeitig analysieren lassen.

4K Tokens: 3 Seiten
128K Tokens: 200 Seiten
1M Tokens: Ganzes Buch

Konversations-Länge

Längere Gespräche brauchen mehr Context. Nach vielen Nachrichten wird das Window voll.

Problem: Alte Nachrichten werden "vergessen"
Lösung: Neue Konversation starten

Kosten

Größeres Context Window = mehr Tokens = höhere Kosten. Jeder Token wird berechnet.

Tipp: Nur relevanten Text laden
Nutze: Caching für Wiederholungen

Context Window im Vergleich

Modell Context Wörter Entspricht
GPT-4.1 1M Tokens 750.000 3 große Romane
GPT-4 Turbo 128K Tokens 96.000 200 Seiten
Claude Sonnet 4.5 200K Tokens 150.000 300 Seiten
Gemini 2.5 Pro 1M Tokens 750.000 3 große Romane
Llama 4 Maverick 10M Tokens 7.5M 30 große Romane
GPT-3.5 (alt) 4K / 16K 3.000 / 12.000 8 / 30 Seiten

Was passt in verschiedene Context Windows?

4K Tokens (~3.000 Wörter)

Kurze Gespräche, einzelne Artikel, Code-Snippets, einfache Fragen

16K Tokens (~12.000 Wörter)

Längere Dokumente, mehrere Artikel, kleine Codebase-Dateien, ausführliche Analysen

128K Tokens (~96.000 Wörter)

Ganze Bücher (Kurzromane), wissenschaftliche Papers, große Code-Dateien

1M Tokens (~750.000 Wörter)

Mehrere Bücher, ganze Codebases, Jahresberichte, komplette Meeting-Protokolle eines Jahres

10M Tokens (~7.5M Wörter)

Gesamte Bibliotheken, sehr große Codebases, alle Unternehmens-Dokumente

Häufige Probleme

1. "Context Window voll"

Problem: Nach vielen Nachrichten ist das Limit erreicht.
Lösung: Neue Konversation starten oder ältere Nachrichten löschen.

2. Qualitätsverlust bei großen Contexts

Problem: LLMs können Details in sehr langen Texten "übersehen" (besonders in der Mitte).
Lösung: Wichtige Infos am Anfang oder Ende platzieren, Text strukturieren.

3. Hohe Kosten bei vollem Context

Problem: Jeder Token im Context wird berechnet - auch wiederholte.
Lösung: Prompt Caching nutzen (bei Anthropic 90% günstiger), unnötigen Text entfernen.

Best Practices

  1. Nur relevanten Content einbinden
    Nicht das ganze Dokument - nur die relevanten Abschnitte. Spart Kosten und verbessert Qualität.
  2. Strukturiere lange Texte
    Nutze Überschriften, Absätze, Bullet-Points. Das Modell versteht strukturierten Text besser.
  3. Wichtiges nach vorne
    LLMs "vergessen" manchmal Details in der Mitte langer Texte. Wichtige Infos am Anfang platzieren.
  4. Nutze RAG für sehr große Datenmengen
    Bei Datenbanken oder Dokumentensammlungen: Retrieval Augmented Generation statt alles ins Context laden.
  5. Teste mit kleinerem Context
    Oft reicht weniger Context als gedacht. Teste, wie viel wirklich nötig ist.

Fortgeschrittene Konzepte

Sliding Window

Einige Modelle nutzen ein "gleitendes Fenster" - sie behalten die neuesten Informationen und lassen ältere Infos nach und nach "fallen". Das ermöglicht theoretisch unendlich lange Gespräche, aber frühere Details gehen verloren.

Attention Mechanism

Das Modell "achtet" unterschiedlich stark auf verschiedene Teile des Context Windows. Wichtige Informationen bekommen mehr "Attention" - aber das ist nicht immer perfekt.

Prompt Caching (Anthropic)

Bei wiederholten Anfragen mit gleichem Basis-Prompt: Das Modell cached den Context und berechnet ihn nicht neu. Ersparnis: bis zu 90% der Input-Kosten.

Verwandte Konzepte

Context Windows optimal nutzen?

Im 1:1 KI-Sparring lernen Sie, wie Sie große Context Windows effektiv nutzen und mit RAG kombinieren.

Kostenloses Erstgespräch buchen

Unverbindlich. Persönlich. 30 Minuten.