Vollständige Visualisierung der Positional Encoding Matrix als Heatmap – enthüllt die periodischen Muster
Jede Position erhält einen einzigartigen Vektor durch Sinus- und Kosinus-Funktionen verschiedener Frequenzen. Niedrige Dimensionen ändern sich schnell (hohe Frequenz), hohe Dimensionen langsam (niedrige Frequenz). Dies ermöglicht dem Modell, sowohl lokale als auch globale Positionen zu unterscheiden.
pos: Position des Tokens (0 bis n-1)
i: Dimensions-Index (0 bis d_model/2)
d_model: Embedding-Dimensionen (z.B. 512)
Vertikale Streifen: Zeigen periodische Natur der Sinus/Kosinus-Funktionen. Niedrige Dimensionen haben enge Streifen (hohe Frequenz), hohe Dimensionen breite Streifen (niedrige Frequenz).
Horizontale Variation: Zeigt wie sich Encoding über Positionen ändert. Jede Position hat einen eindeutigen Fingerabdruck.
Position Encoding wird zu Token-Embeddings addiert:
Original Transformer (2017) verwendet sinusoidales PE. Moderne Modelle nutzen oft: