Lineare Positions-Bias als Alternative zu rotierenden Embeddings
ALiBi (Attention with Linear Biases) ersetzt rotierte Embeddings durch einfache lineare Bias-Matrizen: bias(i,j) = -(i-j)/m. Jeder Head hat verschiedene Slope m.
RoPE rotiert Q/K Vektoren (komplex). ALiBi addiert einfach Konstanten (eleganter). ALiBi: 30% schneller, bessere Extrapolation auf längere Sequenzen.
Training auf 1K Tokens, aber funktioniert bis 8K ohne Retraining! RoPE braucht Interpolation. ALiBi skaliert Linear → seamless längere Kontexte.
8 Heads, verschiedene m: 1/8, 1/16, ..., 1/1024. Flache Slopes (große m): lange Abhängigkeiten. Steile Slopes (kleine m): lokale Fenster.
Diagonale (i=j): Bias = 0 (neutraal). Off-Diagonale: negativ (discourage attention zu weit entfernten tokens). Shape: nach unten-links abnehmend.
BLOOM (176B) und MPT (7B-65B) verwenden ALiBi als Standard. Einfach, schnell, extrapoliert gut. Neue Models wählen oft ALiBi über RoPE.