2000 Tokens
Input Sequenz Struktur

Attention Pattern nach Layer

Position in Sequenz (System → Query → Documents) | Farbskala: Rot (niedrig) → Grün (hoch)
Farbskala
Niedrig Hoch
Statistiken
System Prompt Attn 25%
Query Attn 30%
Docs Attn 45%
U-Curve Score 0.68

Warum das wichtig ist

🎯
Lost-in-the-Middle Phänomen
Documents in der Mitte der Kontext-Fenster erhalten weniger Attention. Das erste und letzte Dokument werden bevorzugt – ein klassisches U-Curve Muster.
📍
System Prompt Position
Am Anfang platziert, aber keine Garantie für hohe Attention. Oft wird Query stärker beachtet. Moderne Prompting Techniken adressieren das.
🔄
Layer-abhängig
Early Layers fokussieren auf Syntaktisches (System Prompt Tokens). Later Layers fokussieren auf Semantik (Dokumente, Query). Unterschiedliche Rollen.
RAG-Impakt
Bei RAG mit 20+ Retrieved Docs können mittlere Dokumente ignoriert werden, auch wenn sie hochrelevant sind. Ranking und Ordering sind kritisch.
💡
Mitigations-Strategien
System Prompt am Ende, wichtigste Docs zuerst/zuletzt, oder rephrasing in Query. Verschiedene Ansätze mit unterschiedlichem Erfolg.
📊
Empirische Evidence
LLaMA, GPT-4 und Claude zeigen ähnliche U-Curve Muster. Es ist architekturales Phänomen, nicht modellspezifisch.
Key Insights

Schlüssel-Erkenntnisse

1
U-Curve ist real: Literatur (Liu et al., 2024) zeigt empirisch: Position am Anfang/Ende → 80% Accuracy, Mitte → 50% Accuracy. Mit 30 Retrieved Docs ist die Mitte praktisch verloren.
2
System Prompt konkurriert: System Prompt am Anfang, aber Query/Docs nach vorne verschoben → Modell fokussiert auf Query. System Prompt allein nicht genug, muss wiederholt werden.
3
Layer-weise Unterschiede: Frühe Layers (1-20) fokussieren auf Token-Level-Syntax (System Format). Späte Layers (60+) fokussieren auf semantische Bedeutung (Query/Docs). Training Stack hat unterschiedliche Jobs.
4
Recency Bias: Letzte Tokens bekommen ~15-20% mehr Attention als mittlere. Daher "Schlussfolgerung am Ende" Prompt-Tricks funktionieren besser als erwartet.
5
RAG-Konsequenzen sind groß: Mit KNN-Retrieval (Top-10 Docs) können Positionen 4-7 < 20% Attention bekommen. Doc-Ranking ist entscheidender als Retrieval selbst.
6
Training kann das nicht beheben: Auch mit Supervised Fine-Tuning auf langen Kontexten bleibt U-Curve. Es scheint Architektur-Level Limitation zu sein, nicht Daten-Level.