Wie Transformer die Reihenfolge von Tokens verstehen – durch Sinus- und Cosinuswellen verschiedener Frequenzen wird jede Position eindeutig kodiert.
Eindeutige Positionen: Jede Position erhält einen einzigartigen Vektor. Die Kombination verschiedener Frequenzen funktioniert wie ein "Binärzähler" – niedrige Dimensionen oszillieren schnell (Einer-Stelle), hohe langsam (Tausender-Stelle).
Relative Positionen: Für jede feste Distanz k existiert
eine lineare Transformation, die PE(pos) auf PE(pos+k) abbildet.
Das Modell kann so lernen, relative Abstände zu nutzen.
Generalisierung: Die Funktionen sind für beliebige Positionen definiert – theoretisch auch für längere Sequenzen als im Training gesehen.