Context Window – Das Kurzzeitgedächtnis von KI-Modellen
Das Context Window ist die maximale Textmenge in Token, die ein KI-Modell gleichzeitig verarbeiten kann. Es bestimmt, wie viel Code, Kontext und Anweisungen eine KI auf einmal sieht. Moderne Modelle wie Claude bieten bis zu 200.000 Token. Effizientes Context-Management durch Auto-Compact und selektives Laden ist entscheidend für produktives Agentic Coding.
Das Context Window (deutsch: Kontextfenster) bezeichnet die maximale Menge an Text, die ein Large Language Model (LLM) in einer einzelnen Verarbeitung gleichzeitig berücksichtigen kann. Es ist das Arbeitsgedächtnis der KI – alles, was innerhalb dieser Grenze liegt, ist für das Modell "sichtbar" und kann in die Antwort einfließen. Alles außerhalb davon existiert für das Modell in diesem Moment schlicht nicht.
Die Größe des Context Windows wird in Token gemessen. Ein Token entspricht grob einem Wort oder Wortfragment – auf Englisch etwa 0,75 Wörter pro Token, auf Deutsch oft etwas weniger wegen längerer Komposita. Eine Seite normaler Text enthält ungefähr 750 Tokens. Der Inhalt des Context Windows umfasst alles: die Systeminstruktionen, den bisherigen Gesprächsverlauf, geladene Dateien, Ergebnisse von Tool-Aufrufen und die eigentliche Nutzereingabe.
Die Entwicklung der Context-Window-Größen
Die Context-Window-Größen haben sich seit den frühen GPT-Modellen dramatisch verändert. Diese Entwicklung ist einer der zentralen technischen Fortschritte, die professionelles Agentic Coding erst möglich gemacht haben:
Frühe Modelle (2020–2022): 4.000–8.000 Token
- GPT-3 (2020): 4.096 Token – etwa 5–6 Seiten Text
- GPT-3.5 Turbo (2022): 4.096 Token, später 16.384 Token
- Einschränkung: Nur kleine Codedateien oder kurze Konversationen möglich
- Konsequenz: KI-Assistenten "vergaßen" früher Teil einer Session regelmäßig
Mittlere Phase (2023): 32.000–100.000 Token
- GPT-4 (2023): 8.192 Token, später 32.768 Token
- Claude 2 (2023): 100.000 Token – ein Durchbruch
- Möglichkeit: Ganze Module und mehrere Dateien gleichzeitig im Kontext
- Erste Agentic-Coding-Workflows entstehen
Aktuelle Generation (2024–2025): 200.000+ Token
- Claude 3 / Claude 3.5 Sonnet: 200.000 Token
- GPT-4o: 128.000 Token
- Gemini 1.5 Pro: bis zu 1 Million Token
- Möglichkeit: Große Teile einer Codebase, vollständige Bücher, umfangreiche Dokumentationen
200.000 Token entsprechen etwa 150.000 Wörtern oder dem Inhalt von 500–600 durchschnittlichen Quellcode-Dateien. Damit kann ein KI-Assistent heute wesentlich größere Teile eines realen Softwareprojekts auf einmal überblicken.
Warum das Context Window für Agentic Coding entscheidend ist
Das Problem kleiner Context Windows
Wenn das Context Window zu klein ist für die Aufgabe, entstehen typische Probleme:
- Vergessen von Anweisungen: Regeln aus dem Anfang der Session sind nicht mehr aktiv
- Inkonsistente Änderungen: Die KI kennt nicht alle relevanten Dateien und erzeugt widersprüchlichen Code
- Verlorene Abhängigkeiten: Interfaces, Typen und Funktionssignaturen aus anderen Dateien sind unbekannt
- Abgebrochene Antworten: Das Modell kann keine vollständige Antwort erzeugen weil der Kontext voll ist
Was ein großes Context Window ermöglicht
Mit ausreichend Context Window kann ein KI-Assistent bei Coding-Aufgaben das gesamte relevante Umfeld berücksichtigen:
- Die gesamte CLAUDE.md mit allen Projektregeln ist immer aktiv
- Mehrere zusammenhängende Dateien sind gleichzeitig lesbar (Frontend-Komponente + Backend-Route + Datenmodell)
- Der vollständige bisherige Chat-Verlauf bleibt verfügbar
- Ergebnisse mehrerer Tool-Aufrufe können gleichzeitig berücksichtigt werden
- Lange Fehlermeldungen, Logs und Stack Traces passen komplett in den Kontext
Context Window und Codebase-Verständnis
Ein reales Softwareprojekt kann Hunderte oder Tausende von Dateien umfassen. Selbst 200.000 Token decken nicht die gesamte Codebase ab. Deshalb ist bewusstes Context Engineering notwendig: Die KI muss wissen, welche Dateien für die aktuelle Aufgabe relevant sind, und diese gezielt in den Kontext laden – statt zu versuchen, alles auf einmal zu verarbeiten.
Wie Token gezählt werden
Nicht alle Inhalte belegen gleich viele Token:
- Normaler Text (Englisch): ~0,75 Wörter pro Token
- Normaler Text (Deutsch): ~0,6–0,7 Wörter pro Token (Komposita sind länger)
- Quellcode: Effizienter tokenisiert, da viele Zeichen eigene Tokens sind
- JSON/YAML: Strukturdaten belegen oft mehr Token als der reine Informationsgehalt vermuten lässt
- Bilder (Multimodale Modelle): Je nach Auflösung 85–1.500+ Token pro Bild
Input-Token vs. Output-Token
Das Context Window bezieht sich auf Input-Token – also alles, was das Modell als Eingabe erhält. Die maximale Antwortlänge (Output-Token) ist eine separate Begrenzung, die je nach Modell und Plan variiert:
- Input-Token: System Prompt + Chat-Verlauf + geladene Dateien + aktuelle Anfrage
- Output-Token: Die generierte Antwort (typisch 4.000–8.192 Token Maximum)
- Gesamtlimit: Input + Output darf das Context Window nicht überschreiten
In der Praxis bedeutet das: Bei einem 200.000-Token-Fenster und maximaler Kontextauslastung bleibt weniger Raum für die Antwort. Claude Code und ähnliche Tools managen dieses Budget automatisch.
Context Window Management in der Praxis
Auto-Compact (Claude Code)
Claude Code verfügt über automatisches Kontext-Management. Wenn das Token-Limit einer Session erreicht wird, komprimiert der Auto-Compact-Mechanismus den bisherigen Konversationsverlauf intelligent:
- Ältere, weniger relevante Teile werden zusammengefasst
- Kritische Informationen (Projektregeln, aktuelle Aufgabe, wichtige Entscheidungen) bleiben erhalten
- Die Session kann nahtlos weiterlaufen ohne manuellen Eingriff
- Kein Wissen aus der CLAUDE.md geht verloren, da diese immer neu eingebunden wird
Session Handover
Bei sehr langen Arbeitsphasen kann ein expliziter Session Handover sinnvoller sein als Auto-Compact:
- Der aktuelle Stand wird in einer strukturierten Datei dokumentiert
- Die neue Session liest diese Datei als Erstes ein
- Der Kontext ist damit "sauber" gestartet, ohne komprimierte Reste
- Gut für komplexe Projekte mit vielen parallelen Aufgaben
Selective Context Loading
Gutes Context Engineering lädt nur relevante Dateien in den Kontext:
- Für ein Frontend-Feature: Nur die betroffenen Vue-Komponenten und den zugehörigen Service
- Für eine API-Änderung: Route, Controller, Service und Datenmodell – nicht das gesamte Backend
- Für Debugging: Die Fehlermeldung, die betroffene Datei und direkte Abhängigkeiten
Claude Code führt dieses Selective Loading automatisch durch, indem es relevante Dateien per Grep und Glob sucht und nur diese liest.
Context Window und die Qualität von KI-Antworten
Lost in the Middle
Forschungsergebnisse zeigen, dass große Sprachmodelle Informationen am Anfang und am Ende des Kontextfensters besser verarbeiten als Informationen in der Mitte. Dieses Phänomen wird "Lost in the Middle" genannt. Für die Praxis bedeutet das:
- Wichtige Anweisungen sollten am Anfang (Systemprompt) stehen
- Die aktuelle Aufgabe sollte am Ende (aktueller User-Turn) klar formuliert sein
- Weniger kritische Referenzdaten können in der Mitte platziert werden
Kontextrelevanz vs. Kontextgröße
Mehr Kontext ist nicht immer besser. Ein zu großes Context Window, das mit irrelevanten Informationen gefüllt ist, kann die Qualität der Antworten verschlechtern:
- Das Modell "verdünnt" seine Aufmerksamkeit über zu viele Informationen
- Irrelevante Code-Abschnitte können die KI zu falschen Schlüssen verleiten
- Der Fokus auf die eigentliche Aufgabe geht verloren
Optimales Context Engineering bedeutet: Den richtigen Kontext laden, nicht den größten.
Context Window vs. RAG (Retrieval-Augmented Generation)
Für Informationen, die das Context Window übersteigen würden, wird oft RAG eingesetzt:
- Context Window: Direkte Verarbeitung aller eingebetteten Informationen, höchste Genauigkeit
- RAG: Dynamisches Abrufen relevanter Chunks aus einer externen Wissensbasis, skalierbar für sehr große Datenmengen
In der Praxis des Agentic Coding nutzen Tools wie Claude Code eine Kombination: Das Context Window für aktive Dateien und Tool-Ergebnisse, Grep und Glob für das dynamische Abrufen relevanter Code-Abschnitte aus der Codebase.
Praktische Konsequenzen für Entwickler
Große Dateien aufteilen
Dateien, die deutlich mehr als 5.000 Zeilen haben, belasten das Context Window erheblich. Modulare Architektur ist nicht nur aus Software-Engineering-Perspektive sinnvoll, sondern erleichtert auch das Arbeiten mit KI-Assistenten.
Redundante Inhalte vermeiden
In langen Sessions neigen Entwickler dazu, Fragen zu wiederholen oder Kontext mehrfach zu erklären. Das belastet das Context Window unnötig. Einmal klar formuliert ist effizienter.
Memory Files für langfristige Informationen
Informationen die dauerhaft gelten (Architekturentscheidungen, bekannte Bugs, Best Practices) gehören in Memory Files oder die CLAUDE.md – nicht in den aktiven Kontext jeder Session. So bleibt das Context Window für aufgabenrelevante Inhalte frei.
Agentic Coding Workshop: Context Window richtig nutzen
Im Agentic Coding Workshop von elasticbrains lernen Sie, wie Sie das Context Window optimal einsetzen:
- Context Engineering: welche Dateien wann in den Kontext laden
- CLAUDE.md strukturieren, damit wichtige Regeln immer aktiv sind
- Auto-Compact und Session Handover sinnvoll einsetzen
- Projektstruktur für bessere KI-Zusammenarbeit optimieren
- Praxisbeispiele aus realen Projekten mit 200.000-Token-Sessions
Weiterführende Ressourcen
- Glossar: Context Engineering – strukturiertes Management des Kontextfensters
- Glossar: Agentic Coding – professioneller Einsatz von KI in der Entwicklung
- Glossar: Large Language Model (LLM) – technische Grundlagen
- Glossar: Prompt Engineering – effektive Eingaben formulieren
- Workshop: Agentic Coding Workshop
Weitere Glossarbegriffe
Coding Agent – Autonome KI-Systeme für die Softwareentwicklung
Ein Coding Agent ist ein autonomes KI-System, das selbständig programmiert: Dateien liest, Code schreibt, Tests ausführt und Git-Operationen durchführt. Anders als klassische Code-Completion arbeitet ein Coding Agent auf Aufgabenebene, plant Implementierungen eigenständig und korrigiert Fehler iterativ. Bekannte Vertreter sind Claude Code, Cursor und Devin.
CLAUDE.md – Project Instructions für KI-gestützte Entwicklung
CLAUDE.md ist eine Projektdatei, die automatisch in jede Claude Code Sitzung geladen wird und projektspezifische Regeln für KI-Assistenten definiert. Sie enthält Code-Konventionen, Sicherheitsrichtlinien, Architekturvorgaben und Deployment-Workflows. Strukturierte Project Instructions verbessern die Qualität und Konsistenz von KI-gestützter Entwicklung nachhaltig.
AI Pair Programming – KI als Programmierpartner
AI Pair Programming bezeichnet den Einsatz eines KI-Agenten als gleichwertigen Programmierpartner in der Softwareentwicklung. Die KI übernimmt die Navigator-Rolle aus dem klassischen Pair Programming – verfügbar rund um die Uhr, ohne soziales Overhead, mit konsistenter Qualität. Tools wie Claude Code, Cursor und GitHub Copilot ermöglichen diese Arbeitsweise.