Sinusoidal Position Encoding

PE_{(pos, 2i)} = sin(pos / 10000^2i/d) PE_{(pos, 2i+1)} = cos(pos / 10000^2i/d)

Gerade Dimensionen (2i) nutzen Sinus, ungerade (2i+1) nutzen Cosinus.
Verschiedene Dimensionen haben verschiedene Frequenzen (10000^2i/d).

💡 Warum Sinus und Cosinus?

Eindeutige Positionen: Jede Position erhält einen einzigartigen Vektor. Die Kombination verschiedener Frequenzen funktioniert wie ein "Binärzähler" – niedrige Dimensionen oszillieren schnell (Einer-Stelle), hohe langsam (Tausender-Stelle).

Relative Positionen: Für jede feste Distanz k existiert eine lineare Transformation, die PE(pos) auf PE(pos+k) abbildet. Das Modell kann so lernen, relative Abstände zu nutzen.

Generalisierung: Die Funktionen sind für beliebige Positionen definiert – theoretisch auch für längere Sequenzen als im Training gesehen.

Sinusoidal (Original) 2017

Keine trainierbaren Parameter
Theoretisch unbegrenzte Länge
Feste, deterministische Werte
Verwendet in: Original Transformer

RoPE (Rotary) Modern

Rotation statt Addition
Bessere Extrapolation
Relative Positionen natürlich
Verwendet in: Llama, Mistral, PaLM

ALiBi (Linear Bias) Modern

Kein separates Encoding
Bias direkt auf Attention-Scores
Zero-Shot Längenextrapolation
Verwendet in: BLOOM, MPT