Context Window – Das Kurzzeitgedächtnis von KI-Modellen

Das Context Window ist die maximale Textmenge in Token, die ein KI-Modell gleichzeitig verarbeiten kann. Es bestimmt, wie viel Code, Kontext und Anweisungen eine KI auf einmal sieht. Moderne Modelle wie Claude bieten bis zu 200.000 Token. Effizientes Context-Management durch Auto-Compact und selektives Laden ist entscheidend für produktives Agentic Coding.

Kategorie:KI & Machine Learning

Das Context Window (deutsch: Kontextfenster) bezeichnet die maximale Menge an Text, die ein Large Language Model (LLM) in einer einzelnen Verarbeitung gleichzeitig berücksichtigen kann. Es ist das Arbeitsgedächtnis der KI – alles, was innerhalb dieser Grenze liegt, ist für das Modell "sichtbar" und kann in die Antwort einfließen. Alles außerhalb davon existiert für das Modell in diesem Moment schlicht nicht.

Die Größe des Context Windows wird in Token gemessen. Ein Token entspricht grob einem Wort oder Wortfragment – auf Englisch etwa 0,75 Wörter pro Token, auf Deutsch oft etwas weniger wegen längerer Komposita. Eine Seite normaler Text enthält ungefähr 750 Tokens. Der Inhalt des Context Windows umfasst alles: die Systeminstruktionen, den bisherigen Gesprächsverlauf, geladene Dateien, Ergebnisse von Tool-Aufrufen und die eigentliche Nutzereingabe.

Die Entwicklung der Context-Window-Größen

Die Context-Window-Größen haben sich seit den frühen GPT-Modellen dramatisch verändert. Diese Entwicklung ist einer der zentralen technischen Fortschritte, die professionelles Agentic Coding erst möglich gemacht haben:

Frühe Modelle (2020–2022): 4.000–8.000 Token

GPT-3 (2020): 4.096 Token – etwa 5–6 Seiten Text
GPT-3.5 Turbo (2022): 4.096 Token, später 16.384 Token
Einschränkung: Nur kleine Codedateien oder kurze Konversationen möglich
Konsequenz: KI-Assistenten "vergaßen" früher Teil einer Session regelmäßig

Mittlere Phase (2023): 32.000–100.000 Token

GPT-4 (2023): 8.192 Token, später 32.768 Token
Claude 2 (2023): 100.000 Token – ein Durchbruch
Möglichkeit: Ganze Module und mehrere Dateien gleichzeitig im Kontext
Erste Agentic-Coding-Workflows entstehen

Aktuelle Generation (2024–2025): 200.000+ Token

Claude 3 / Claude 3.5 Sonnet: 200.000 Token
GPT-4o: 128.000 Token
Gemini 1.5 Pro: bis zu 1 Million Token
Möglichkeit: Große Teile einer Codebase, vollständige Bücher, umfangreiche Dokumentationen

200.000 Token entsprechen etwa 150.000 Wörtern oder dem Inhalt von 500–600 durchschnittlichen Quellcode-Dateien. Damit kann ein KI-Assistent heute wesentlich größere Teile eines realen Softwareprojekts auf einmal überblicken.

Warum das Context Window für Agentic Coding entscheidend ist

Das Problem kleiner Context Windows

Wenn das Context Window zu klein ist für die Aufgabe, entstehen typische Probleme:

Vergessen von Anweisungen: Regeln aus dem Anfang der Session sind nicht mehr aktiv
Inkonsistente Änderungen: Die KI kennt nicht alle relevanten Dateien und erzeugt widersprüchlichen Code
Verlorene Abhängigkeiten: Interfaces, Typen und Funktionssignaturen aus anderen Dateien sind unbekannt
Abgebrochene Antworten: Das Modell kann keine vollständige Antwort erzeugen weil der Kontext voll ist

Was ein großes Context Window ermöglicht

Mit ausreichend Context Window kann ein KI-Assistent bei Coding-Aufgaben das gesamte relevante Umfeld berücksichtigen:

Die gesamte CLAUDE.md mit allen Projektregeln ist immer aktiv
Mehrere zusammenhängende Dateien sind gleichzeitig lesbar (Frontend-Komponente + Backend-Route + Datenmodell)
Der vollständige bisherige Chat-Verlauf bleibt verfügbar
Ergebnisse mehrerer Tool-Aufrufe können gleichzeitig berücksichtigt werden
Lange Fehlermeldungen, Logs und Stack Traces passen komplett in den Kontext

Context Window und Codebase-Verständnis

Ein reales Softwareprojekt kann Hunderte oder Tausende von Dateien umfassen. Selbst 200.000 Token decken nicht die gesamte Codebase ab. Deshalb ist bewusstes Context Engineering notwendig: Die KI muss wissen, welche Dateien für die aktuelle Aufgabe relevant sind, und diese gezielt in den Kontext laden – statt zu versuchen, alles auf einmal zu verarbeiten.

Wie Token gezählt werden

Nicht alle Inhalte belegen gleich viele Token:

Normaler Text (Englisch): ~0,75 Wörter pro Token
Normaler Text (Deutsch): ~0,6–0,7 Wörter pro Token (Komposita sind länger)
Quellcode: Effizienter tokenisiert, da viele Zeichen eigene Tokens sind
JSON/YAML: Strukturdaten belegen oft mehr Token als der reine Informationsgehalt vermuten lässt
Bilder (Multimodale Modelle): Je nach Auflösung 85–1.500+ Token pro Bild

Input-Token vs. Output-Token

Das Context Window bezieht sich auf Input-Token – also alles, was das Modell als Eingabe erhält. Die maximale Antwortlänge (Output-Token) ist eine separate Begrenzung, die je nach Modell und Plan variiert:

Input-Token: System Prompt + Chat-Verlauf + geladene Dateien + aktuelle Anfrage
Output-Token: Die generierte Antwort (typisch 4.000–8.192 Token Maximum)
Gesamtlimit: Input + Output darf das Context Window nicht überschreiten

In der Praxis bedeutet das: Bei einem 200.000-Token-Fenster und maximaler Kontextauslastung bleibt weniger Raum für die Antwort. Claude Code und ähnliche Tools managen dieses Budget automatisch.

Context Window Management in der Praxis

Auto-Compact (Claude Code)

Claude Code verfügt über automatisches Kontext-Management. Wenn das Token-Limit einer Session erreicht wird, komprimiert der Auto-Compact-Mechanismus den bisherigen Konversationsverlauf intelligent:

Ältere, weniger relevante Teile werden zusammengefasst
Kritische Informationen (Projektregeln, aktuelle Aufgabe, wichtige Entscheidungen) bleiben erhalten
Die Session kann nahtlos weiterlaufen ohne manuellen Eingriff
Kein Wissen aus der CLAUDE.md geht verloren, da diese immer neu eingebunden wird

Session Handover

Bei sehr langen Arbeitsphasen kann ein expliziter Session Handover sinnvoller sein als Auto-Compact:

Der aktuelle Stand wird in einer strukturierten Datei dokumentiert
Die neue Session liest diese Datei als Erstes ein
Der Kontext ist damit "sauber" gestartet, ohne komprimierte Reste
Gut für komplexe Projekte mit vielen parallelen Aufgaben

Selective Context Loading

Gutes Context Engineering lädt nur relevante Dateien in den Kontext:

Für ein Frontend-Feature: Nur die betroffenen Vue-Komponenten und den zugehörigen Service
Für eine API-Änderung: Route, Controller, Service und Datenmodell – nicht das gesamte Backend
Für Debugging: Die Fehlermeldung, die betroffene Datei und direkte Abhängigkeiten

Claude Code führt dieses Selective Loading automatisch durch, indem es relevante Dateien per Grep und Glob sucht und nur diese liest.

Context Window und die Qualität von KI-Antworten

Lost in the Middle

Forschungsergebnisse zeigen, dass große Sprachmodelle Informationen am Anfang und am Ende des Kontextfensters besser verarbeiten als Informationen in der Mitte. Dieses Phänomen wird "Lost in the Middle" genannt. Für die Praxis bedeutet das:

Wichtige Anweisungen sollten am Anfang (Systemprompt) stehen
Die aktuelle Aufgabe sollte am Ende (aktueller User-Turn) klar formuliert sein
Weniger kritische Referenzdaten können in der Mitte platziert werden

Kontextrelevanz vs. Kontextgröße

Mehr Kontext ist nicht immer besser. Ein zu großes Context Window, das mit irrelevanten Informationen gefüllt ist, kann die Qualität der Antworten verschlechtern:

Das Modell "verdünnt" seine Aufmerksamkeit über zu viele Informationen
Irrelevante Code-Abschnitte können die KI zu falschen Schlüssen verleiten
Der Fokus auf die eigentliche Aufgabe geht verloren

Optimales Context Engineering bedeutet: Den richtigen Kontext laden, nicht den größten.

Context Window vs. RAG (Retrieval-Augmented Generation)

Für Informationen, die das Context Window übersteigen würden, wird oft RAG eingesetzt:

Context Window: Direkte Verarbeitung aller eingebetteten Informationen, höchste Genauigkeit
RAG: Dynamisches Abrufen relevanter Chunks aus einer externen Wissensbasis, skalierbar für sehr große Datenmengen

In der Praxis des Agentic Coding nutzen Tools wie Claude Code eine Kombination: Das Context Window für aktive Dateien und Tool-Ergebnisse, Grep und Glob für das dynamische Abrufen relevanter Code-Abschnitte aus der Codebase.

Praktische Konsequenzen für Entwickler

Große Dateien aufteilen

Dateien, die deutlich mehr als 5.000 Zeilen haben, belasten das Context Window erheblich. Modulare Architektur ist nicht nur aus Software-Engineering-Perspektive sinnvoll, sondern erleichtert auch das Arbeiten mit KI-Assistenten.

Redundante Inhalte vermeiden

In langen Sessions neigen Entwickler dazu, Fragen zu wiederholen oder Kontext mehrfach zu erklären. Das belastet das Context Window unnötig. Einmal klar formuliert ist effizienter.

Memory Files für langfristige Informationen

Informationen die dauerhaft gelten (Architekturentscheidungen, bekannte Bugs, Best Practices) gehören in Memory Files oder die CLAUDE.md – nicht in den aktiven Kontext jeder Session. So bleibt das Context Window für aufgabenrelevante Inhalte frei.

Agentic Coding Workshop: Context Window richtig nutzen

Im Agentic Coding Workshop von elasticbrains lernen Sie, wie Sie das Context Window optimal einsetzen:

Context Engineering: welche Dateien wann in den Kontext laden
CLAUDE.md strukturieren, damit wichtige Regeln immer aktiv sind
Auto-Compact und Session Handover sinnvoll einsetzen
Projektstruktur für bessere KI-Zusammenarbeit optimieren
Praxisbeispiele aus realen Projekten mit 200.000-Token-Sessions

Weiterführende Ressourcen

Glossar: Context Engineering – strukturiertes Management des Kontextfensters
Glossar: Agentic Coding – professioneller Einsatz von KI in der Entwicklung
Glossar: Large Language Model (LLM) – technische Grundlagen
Glossar: Prompt Engineering – effektive Eingaben formulieren
Workshop: Agentic Coding Workshop

Weitere Glossarbegriffe

Zurück zum Glossar