Wie PagedAttention die KV-Cache-Speichernutzung durch Virtual Memory Paging optimiert
PagedAttention teilt die KV-Cache in logische Pages auf (128-256 Tokens pro Page) und verwaltet sie wie Virtual Memory. Ermöglicht 90% Speicherreduktion bei gleicher Performance.
Standard: KV-Tensoren müssen contiguous sein → externe Fragmentierung. PagedAttention: Pages können nicht-contiguous sein → optimale Speichernutzung.
Mehrere Sequenzen unterschiedlicher Länge brauchen Standard viel Padding. PagedAttention teilt Pages → höhere GPU-Auslastung, bessere Batch-Effizienz.
Industry-Standard Implementierung von UC Berkeley. Jetzt in Produktionen bei OpenAI, Databricks, Meta. Basis für alles moderne KV-Cache-Management.
Dank GPU-optimierten Page-Lookups: <1% Latenz-Overhead. Standard: 2GB KV-Cache für 128K. PagedAttention: 200MB (10× kleiner).
Getestet mit 1M Token-Kontexten, Throughput-Verbesserungen von 10-20×. Funktioniert mit GPTQ-Quantisierung. Neue Standard-Architektur für lange Kontexte.