Schritt-für-Schritt Visualisierung wie LayerNorm einen Vektor normalisiert, skaliert und verschiebt
LayerNorm stabilisiert das Training tiefer Netzwerke, indem es Aktivierungen über Features (nicht über Batch) normalisiert. Es berechnet Mean und Variance für jeden einzelnen Vektor und transformiert ihn zu Mean=0, Variance=1. Trainierbare Parameter γ (Scale) und β (Shift) erlauben dem Modell, die optimale Verteilung zu lernen.
LayerNorm:
BatchNorm:
Vereinfachte Variante von LayerNorm, verwendet in Llama, Mistral und vielen modernen LLMs:
LayerNorm hat 2 × d_model trainierbare Parameter:
Beispiel: Bei d_model=512 hat LayerNorm 1024 Parameter.