Wie viel Aufmerksamkeit gibt das LLM dem System Prompt vs User Query vs Retrieved Documents? Das U-Curve Phänomen.
2000 Tokens
Input Sequenz Struktur
Attention Pattern nach Layer
Position in Sequenz (System → Query → Documents) | Farbskala: Rot (niedrig) → Grün (hoch)
Farbskala
NiedrigHoch
Statistiken
System Prompt Attn25%
Query Attn30%
Docs Attn45%
U-Curve Score0.68
Warum das wichtig ist
🎯
Lost-in-the-Middle Phänomen
Documents in der Mitte der Kontext-Fenster erhalten weniger Attention. Das erste und letzte Dokument werden bevorzugt – ein klassisches U-Curve Muster.
📍
System Prompt Position
Am Anfang platziert, aber keine Garantie für hohe Attention. Oft wird Query stärker beachtet. Moderne Prompting Techniken adressieren das.
🔄
Layer-abhängig
Early Layers fokussieren auf Syntaktisches (System Prompt Tokens). Later Layers fokussieren auf Semantik (Dokumente, Query). Unterschiedliche Rollen.
U-Curve ist real: Literatur (Liu et al., 2024) zeigt empirisch: Position am Anfang/Ende → 80% Accuracy, Mitte → 50% Accuracy. Mit 30 Retrieved Docs ist die Mitte praktisch verloren.
2
System Prompt konkurriert: System Prompt am Anfang, aber Query/Docs nach vorne verschoben → Modell fokussiert auf Query. System Prompt allein nicht genug, muss wiederholt werden.
3
Layer-weise Unterschiede: Frühe Layers (1-20) fokussieren auf Token-Level-Syntax (System Format). Späte Layers (60+) fokussieren auf semantische Bedeutung (Query/Docs). Training Stack hat unterschiedliche Jobs.
4
Recency Bias: Letzte Tokens bekommen ~15-20% mehr Attention als mittlere. Daher "Schlussfolgerung am Ende" Prompt-Tricks funktionieren besser als erwartet.
5
RAG-Konsequenzen sind groß: Mit KNN-Retrieval (Top-10 Docs) können Positionen 4-7 < 20% Attention bekommen. Doc-Ranking ist entscheidender als Retrieval selbst.
6
Training kann das nicht beheben: Auch mit Supervised Fine-Tuning auf langen Kontexten bleibt U-Curve. Es scheint Architektur-Level Limitation zu sein, nicht Daten-Level.