Context Window - Das Gedächtnis von LLMs

Was ist ein Context Window?

Das Context Window (auch Context Length genannt) ist die maximale Anzahl an Tokens, die ein Large Language Model in einer Anfrage verarbeiten kann. Es ist wie das "Kurzzeitgedächtnis" des Modells - alles, was nicht in dieses Fenster passt, wird nicht berücksichtigt.

Beispiel-Rechnung:

GPT-4: 128K Tokens = ca. 96.000 Wörter = ca. 200 Seiten Text

Claude: 200K Tokens = ca. 150.000 Wörter = ca. 300 Seiten Text

Gemini: 1M Tokens = ca. 750.000 Wörter = ca. 1.500 Seiten Text

Das Context Window umfasst sowohl Ihre Eingabe (Prompt) als auch die Antwort des Modells. Bei längeren Konversationen summieren sich alle Nachrichten auf.

Warum ist das Context Window wichtig?

Dokumentenanalyse

Je größer das Context Window, desto mehr Text können Sie gleichzeitig analysieren lassen.

4K Tokens: 3 Seiten
128K Tokens: 200 Seiten
1M Tokens: Ganzes Buch

Konversations-Länge

Längere Gespräche brauchen mehr Context. Nach vielen Nachrichten wird das Window voll.

Problem: Alte Nachrichten werden "vergessen"
Lösung: Neue Konversation starten

Kosten

Größeres Context Window = mehr Tokens = höhere Kosten. Jeder Token wird berechnet.

Tipp: Nur relevanten Text laden
Nutze: Caching für Wiederholungen

Context Window im Vergleich

Modell	Context	Wörter	Entspricht
GPT-4.1	1M Tokens	750.000	3 große Romane
GPT-4 Turbo	128K Tokens	96.000	200 Seiten
Claude Sonnet 4.5	200K Tokens	150.000	300 Seiten
Gemini 2.5 Pro	1M Tokens	750.000	3 große Romane
Llama 4 Maverick	10M Tokens	7.5M	30 große Romane
GPT-3.5 (alt)	4K / 16K	3.000 / 12.000	8 / 30 Seiten

Was passt in verschiedene Context Windows?

4K Tokens (~3.000 Wörter)

Kurze Gespräche, einzelne Artikel, Code-Snippets, einfache Fragen

16K Tokens (~12.000 Wörter)

Längere Dokumente, mehrere Artikel, kleine Codebase-Dateien, ausführliche Analysen

128K Tokens (~96.000 Wörter)

Ganze Bücher (Kurzromane), wissenschaftliche Papers, große Code-Dateien

1M Tokens (~750.000 Wörter)

Mehrere Bücher, ganze Codebases, Jahresberichte, komplette Meeting-Protokolle eines Jahres

10M Tokens (~7.5M Wörter)

Gesamte Bibliotheken, sehr große Codebases, alle Unternehmens-Dokumente

Häufige Probleme

1. "Context Window voll"

Problem: Nach vielen Nachrichten ist das Limit erreicht.
Lösung: Neue Konversation starten oder ältere Nachrichten löschen.

2. Qualitätsverlust bei großen Contexts

Problem: LLMs können Details in sehr langen Texten "übersehen" (besonders in der Mitte).
Lösung: Wichtige Infos am Anfang oder Ende platzieren, Text strukturieren.

3. Hohe Kosten bei vollem Context

Problem: Jeder Token im Context wird berechnet - auch wiederholte.
Lösung: Prompt Caching nutzen (bei Anthropic 90% günstiger), unnötigen Text entfernen.

Best Practices

        
            Nur relevanten Content einbinden

            Nicht das ganze Dokument - nur die relevanten Abschnitte. Spart Kosten und verbessert Qualität.
          
            Strukturiere lange Texte

            Nutze Überschriften, Absätze, Bullet-Points. Das Modell versteht strukturierten Text besser.
          
            Wichtiges nach vorne

            LLMs "vergessen" manchmal Details in der Mitte langer Texte. Wichtige Infos am Anfang platzieren.
          
            Nutze RAG für sehr große Datenmengen

            Bei Datenbanken oder Dokumentensammlungen: Retrieval Augmented Generation statt alles ins Context laden.
          
            Teste mit kleinerem Context

            Oft reicht weniger Context als gedacht. Teste, wie viel wirklich nötig ist.

Fortgeschrittene Konzepte

Sliding Window

Einige Modelle nutzen ein "gleitendes Fenster" - sie behalten die neuesten Informationen und lassen ältere Infos nach und nach "fallen". Das ermöglicht theoretisch unendlich lange Gespräche, aber frühere Details gehen verloren.

Attention Mechanism

Das Modell "achtet" unterschiedlich stark auf verschiedene Teile des Context Windows. Wichtige Informationen bekommen mehr "Attention" - aber das ist nicht immer perfekt.

Prompt Caching (Anthropic)

Bei wiederholten Anfragen mit gleichem Basis-Prompt: Das Modell cached den Context und berechnet ihn nicht neu. Ersparnis: bis zu 90% der Input-Kosten.

Context Windows optimal nutzen?

Im 1:1 KI-Sparring lernen Sie, wie Sie große Context Windows effektiv nutzen und mit RAG kombinieren.

Kostenloses Erstgespräch buchen

Unverbindlich. Persönlich. 30 Minuten.