Jedes Token fragt "auf Ähnlichkeit hin" jeden anderen Token in der Sequenz.
Das sind n × n Vergleiche. Mit n = 128K sind das 16 Milliarden Operationen pro Layer!
📦
KV-Cache Bottleneck
Für jeden Token müssen Key- und Value-Vektoren gespeichert werden.
Mit d=8192 Dimensionen und 80 Layers sind das schnell 100+ GB für 1M Tokens.
🔧
Flash Attention (2022)
IO-aware Algorithmus: Speichern in GPU-SRAM, nicht HBM.
Gleiche Ergebnisse, aber O(n) Memory statt O(n²). Nur 2x Speedup real, aber Memory-Einsparung ist enorm.
🎯
GQA Reduktion
query-attention" class="glossary-term">Grouped Query Attention: KV-Heads teilen sich (64 Query / 8 KV = 8x Reduktion).
Llama 3 70B nutzt das. Der KV-Cache wird 8x kleiner ohne große Qualitätsverluste.
⚡
Sliding Window (2024)
Nur lokale Attention: Token schaut nur auf die letzten W Tokens (z.B. W=4096).
Komplexität wird O(n×W) statt O(n²). Mit großem Window praktisch ähnlich, aber VRAM ist viel kleiner.
🌟
DSA / Sparse (2025)
Deep Sparse Attention: Router wählt nur Top-k relevante Tokens aus (z.B. k=256 von 1M).
Komplexität wird O(n×k). Llama 4 Scout & Maverick erreichen 1M+ Context damit praktisch.
Schlüssel-Erkenntnisse
1
2x Sequenzlänge = 4x mehr Ressourcen: Das ist nicht linear, es ist quadratisch.
Mit 2K Tokens brauchst du vielleicht 4GB RAM, mit 8K bereits 64GB. Das ist der Grund, warum GPT-3 nur 2K-Token hatte.
2
Memory ist das echte Limit: Nicht Compute (mit GPUs/TPUs), sondern VRAM.
Modern GPUs haben 40-80GB (H100/A100), 1M Tokens mit O(n²) bräuchten Petabytes.
3
Flash Attention ist nicht "schneller", nur speichereffizienter:
Dieselbe Anzahl von Operationen, aber besser im GPU-Memory-Hierachie. Praktischer Speedup: 2-3x, Memory-Einsparung: bis zu 10x.
4
GQA ist der "Low-Hanging Fruit": 8x KV-Cache Reduktion ohne große Qualitätsverluste.
Fast alle modernen Modelle nutzen das jetzt (Llama, Mixtral, Deepseek).
5
Sliding Window funktioniert überraschend gut: Mit 4K Window macht man wenig Qualität Verlust,
aber Memory/Compute wird O(n×W) statt O(n²). LLaMA 2 nutzte das, Mistral auch.
6
DSA ist der Game-Changer für 1M+: Statt alle n Tokens ansehen, nur Top-256 (oder 512).
Ermöglicht 1M Context praktisch. DeepSeek-V3.2 (2025) zeigt das live mit DSA.