Warum LLMs Informationen in der Mitte langer Kontexte übersehen – und wie man das Problem löst
Trotz großer Kontextfenster (32K, 100K+ Tokens) zeigen LLMs ein überraschendes Verhalten: Sie vergessen Informationen in der Mitte und fokussieren auf Anfang und Ende.
Dies führt zu einer charakteristischen U-förmigen Aufmerksamkeitsverteilung (U-Kurve): Information am Anfang wird gut verarbeitet, in der Mitte vergessen, am Ende wieder beachtet.
Bei RAG-Pipelines oder long-context QA kann kritische Information in der Mitte eines Dokuments liegen – genau dort, wo das Modell nicht hinschaut.
System-Prompts am Anfang werden gut verarbeitet. Dies ist einer der Gründe, warum Anfang-Positioning von Instructions wichtig ist.
Die U-förmige Aufmerksamkeit entsteht durch zwei Faktoren:
Transformer verwenden causal attention masking: Jedes Token kann nur auf vorherige Token schauen. Dies führt zu strukturellen Verzerrungen:
Trainings-Daten haben ein biases Muster:
Das Modell lernt implizit, dass Anfang und Ende wichtiger sind. Diese trainierte Verzerrung manifestiert sich als U-Kurve.
In Retrieval-Augmented Generation (RAG) pipelines wird die U-Kurve besonders problematisch:
| Szenario | Dokument-Position | Erfolgsrate | Implikation |
|---|---|---|---|
| Dokument am Anfang | Position 0% | ~95% | Wird beachtet und verarbeitet |
| Dokument in der Mitte | Position 50% | ~50% | Wird oft ignoriert |
| Dokument am Ende | Position 100% | ~90% | Wird beachtet (vor Frage) |
Standard Retrieval rankt nach Relevanz. Aber am besten sollten die top-K Dokumente am Anfang/Ende sein, nicht in der Mitte!
Found-in-the-Middle Calibration: Rank by relevance AND position. Berücksichtige die U-Kurve.
Ansatz: Ordne Retrieval-Ergebnisse so, dass wichtige Dokumente nicht in der Mitte landen.
Position-Aware RAG und Prompt-Design. Vermeide kritische Information in der Mitte.
Neue Training-Strategies und Architekturen können die U-Kurve reduzieren oder eliminieren.
Ein praktischer Grund, warum System-Prompts am Anfang positioniert sind: Sie fallen in den hochaufmerksamen Anfangsbereich der U-Kurve!
LLMs zeigen strukturell höhere Aufmerksamkeit am Anfang und Ende, nicht in der Mitte – trotz großer Kontext-Fenster.
Kombination aus Causal Masking und Training Data Biases erzeugt die U-Kurve. Nicht einfach zu beheben.
Lange Kontexte sind weniger nützlich als es erscheint. Nur Anfang und Ende werden aktiv genutzt.
Standard Retrieval-Ranking ignoriert Position. Found-in-the-Middle Calibration: +15% durch bessere Positionierung.
System-Prompts oben, Frage am Ende = beste Position. Kritische Info nicht in Mitte.
Forschung an Position-Shuffling und neuen Architekturen. Aber noch nicht standard in Production.