Das Phänomen: Die U-Kurve der Aufmerksamkeit

Trotz großer Kontextfenster (32K, 100K+ Tokens) zeigen LLMs ein überraschendes Verhalten: Sie vergessen Informationen in der Mitte und fokussieren auf Anfang und Ende.

Dies führt zu einer charakteristischen U-förmigen Aufmerksamkeitsverteilung (U-Kurve): Information am Anfang wird gut verarbeitet, in der Mitte vergessen, am Ende wieder beachtet.

8K Tokens
Abb. 1 | Die U-Kurve: Aufmerksamkeit und Informationsverarbeitung als Funktion der Position im Kontext. Anfang ✓, Mitte ✗, Ende ✓. Der Schieberegler ändert die Kontextlänge.

Was bedeutet das praktisch?

Warum ist das ein Problem?

Bei RAG-Pipelines oder long-context QA kann kritische Information in der Mitte eines Dokuments liegen – genau dort, wo das Modell nicht hinschaut.

System-Prompts profitieren

System-Prompts am Anfang werden gut verarbeitet. Dies ist einer der Gründe, warum Anfang-Positioning von Instructions wichtig ist.

Ursachen der U-Kurve

Die U-förmige Aufmerksamkeit entsteht durch zwei Faktoren:

1. Attention-Masking-Techniken

Transformer verwenden causal attention masking: Jedes Token kann nur auf vorherige Token schauen. Dies führt zu strukturellen Verzerrungen:

2. Training-Data-Biases

Trainings-Daten haben ein biases Muster:

Das Modell lernt implizit, dass Anfang und Ende wichtiger sind. Diese trainierte Verzerrung manifestiert sich als U-Kurve.

Das Problem mechanistisch
Causal Masking + Training Bias
→ Strukturelle Verzerrung in Attention-Patterns
→ U-förmige Aufmerksamkeitsverteilung
→ Mittlere Information wird „lost"

Ergebnis: Lange-Kontext-Fähigkeit ist Illusion.
Modelle können lange Kontexte verarbeiten,
aber nutzen nur Anfang/Ende aktiv.

Praktische Demonstration: Document Retrieval

Abb. 2 | RAG-Szenario: Wenn ein relevantes Dokument am Anfang platziert ist, wird es korrekt verarbeitet. Am Mitte: Modell ignoriert es. Am Ende: Modell beachtet es wieder. Buttons wechseln die Dokument-Position.

Szenario: Fragen-Beantwortung über Retrieval

Prompt-Struktur:
1. Mehrere Dokumente (von Retrieval)
2. Nutzer-Frage am Ende

Problem: Wenn relevant Dokument in der Mitte ist:
→ Modell findet die Antwort nicht
→ "Ich weiß nicht" oder Halluzinationen

Lösung: Ordne Dokumente strategisch
→ Wichtigste am Anfang/Ende
→ Weniger wichtige in der Mitte

Auswirkungen auf RAG und Long-Context-Systeme

Das RAG-Problem

In Retrieval-Augmented Generation (RAG) pipelines wird die U-Kurve besonders problematisch:

Szenario Dokument-Position Erfolgsrate Implikation
Dokument am Anfang Position 0% ~95% Wird beachtet und verarbeitet
Dokument in der Mitte Position 50% ~50% Wird oft ignoriert
Dokument am Ende Position 100% ~90% Wird beachtet (vor Frage)

Problem: Naive Ranking

Standard Retrieval rankt nach Relevanz. Aber am besten sollten die top-K Dokumente am Anfang/Ende sein, nicht in der Mitte!

Lösung: Position-Aware Ranking

Found-in-the-Middle Calibration: Rank by relevance AND position. Berücksichtige die U-Kurve.

Found-in-the-Middle Calibration

Ansatz: Ordne Retrieval-Ergebnisse so, dass wichtige Dokumente nicht in der Mitte landen.

Found-in-the-Middle Strategie
Traditionelle RAG:
Ranking: Top-1 (relevant) → Middle (next best) → Bottom
→ Mittelre Dokumente liegen in LLM context Mitte!

Found-in-the-Middle:
Position: Anfang (Top-1) + Ende (Top-2-5) + Mitte (Less important)
→ Beste Relevanz wird positioniert, wo LLM hinschaut

Resultat: ~15% Verbesserung in Retrieval-Qualität

Lösungsansätze für Lost-in-the-Middle

1. Position-Aware Ranking (RAG)

2. Prompt-Design-Strategien

3. Alternativ: Position-Shuffling

4. Architektur-Verbesserungen (Future)

Kurzfristig (Praktisch)

Position-Aware RAG und Prompt-Design. Vermeide kritische Information in der Mitte.

Langfristig (Forschung)

Neue Training-Strategies und Architekturen können die U-Kurve reduzieren oder eliminieren.

System-Prompts und die U-Kurve

Ein praktischer Grund, warum System-Prompts am Anfang positioniert sind: Sie fallen in den hochaufmerksamen Anfangsbereich der U-Kurve!

Warum funktioniert das?

Prompt-Struktur in Praxis:

[SYSTEM PROMPT] ← Hochaufmerksamkeit (Anfang)
[User Context/Documents] ← Mischen
[User Question] ← Hochaufmerksamkeit (Ende)

Diese Struktur nutzt die U-Kurve optimal!
Section 7: Key Insights

Kernerkenntnisse

1️⃣ U-förmige Aufmerksamkeit

LLMs zeigen strukturell höhere Aufmerksamkeit am Anfang und Ende, nicht in der Mitte – trotz großer Kontext-Fenster.

2️⃣ Trainings-und Architektur-Effekt

Kombination aus Causal Masking und Training Data Biases erzeugt die U-Kurve. Nicht einfach zu beheben.

3️⃣ Praktische Konsequenzen

Lange Kontexte sind weniger nützlich als es erscheint. Nur Anfang und Ende werden aktiv genutzt.

4️⃣ RAG-Problem

Standard Retrieval-Ranking ignoriert Position. Found-in-the-Middle Calibration: +15% durch bessere Positionierung.

5️⃣ Design-Implikation

System-Prompts oben, Frage am Ende = beste Position. Kritische Info nicht in Mitte.

6️⃣ Zukunft: Fixbar?

Forschung an Position-Shuffling und neuen Architekturen. Aber noch nicht standard in Production.