System Prompt Attention Heatmap

Attention Pattern nach Layer

Position in Sequenz (System → Query → Documents) | Farbskala: Rot (niedrig) → Grün (hoch)

Farbskala

Niedrig Hoch

Statistiken

System Prompt Attn 25%

Query Attn 30%

Docs Attn 45%

U-Curve Score 0.68

Warum das wichtig ist

🎯

Lost-in-the-Middle Phänomen

Documents in der Mitte der Kontext-Fenster erhalten weniger Attention. Das erste und letzte Dokument werden bevorzugt – ein klassisches U-Curve Muster.

📍

System Prompt Position

Am Anfang platziert, aber keine Garantie für hohe Attention. Oft wird Query stärker beachtet. Moderne Prompting Techniken adressieren das.

🔄

Layer-abhängig

Early Layers fokussieren auf Syntaktisches (System Prompt Tokens). Later Layers fokussieren auf Semantik (Dokumente, Query). Unterschiedliche Rollen.

⚡

RAG-Impakt

Bei RAG mit 20+ Retrieved Docs können mittlere Dokumente ignoriert werden, auch wenn sie hochrelevant sind. Ranking und Ordering sind kritisch.

💡

Mitigations-Strategien

System Prompt am Ende, wichtigste Docs zuerst/zuletzt, oder rephrasing in Query. Verschiedene Ansätze mit unterschiedlichem Erfolg.

📊

Empirische Evidence

LLaMA, GPT-4 und Claude zeigen ähnliche U-Curve Muster. Es ist architekturales Phänomen, nicht modellspezifisch.

Schlüssel-Erkenntnisse

U-Curve ist real: Literatur (Liu et al., 2024) zeigt empirisch: Position am Anfang/Ende → 80% Accuracy, Mitte → 50% Accuracy. Mit 30 Retrieved Docs ist die Mitte praktisch verloren.

System Prompt konkurriert: System Prompt am Anfang, aber Query/Docs nach vorne verschoben → Modell fokussiert auf Query. System Prompt allein nicht genug, muss wiederholt werden.

Layer-weise Unterschiede: Frühe Layers (1-20) fokussieren auf Token-Level-Syntax (System Format). Späte Layers (60+) fokussieren auf semantische Bedeutung (Query/Docs). Training Stack hat unterschiedliche Jobs.

Recency Bias: Letzte Tokens bekommen ~15-20% mehr Attention als mittlere. Daher "Schlussfolgerung am Ende" Prompt-Tricks funktionieren besser als erwartet.

RAG-Konsequenzen sind groß: Mit KNN-Retrieval (Top-10 Docs) können Positionen 4-7 < 20% Attention bekommen. Doc-Ranking ist entscheidender als Retrieval selbst.

Training kann das nicht beheben: Auch mit Supervised Fine-Tuning auf langen Kontexten bleibt U-Curve. Es scheint Architektur-Level Limitation zu sein, nicht Daten-Level.