Transformer Block Scrollytelling

Schritt 1 von 8

Die Eingabe: Token-Embeddings

Jeder Transformer-Block erhält eine Sequenz von Token-Repräsentationen als Eingabe. Diese bestehen aus der Summe von Token-Embeddings (was ist das Wort?) und Position Encodings (wo steht es?).

BBatch NSequenzlänge d_modelz.B. 4096

Typische Werte

Llama 3 70B: d_model = 8.192, N = bis zu 128K Tokens

Schritt 2 von 8

RMSNorm: Stabilisierung

Vor der Attention-Schicht wird der Input durch RMSNorm (Root Mean Square Normalization) normalisiert. Dies ist eine vereinfachte Version von LayerNorm ohne Mean-Shifting.

RMSNorm(x) = x / √(mean(x²) + ε) · γ

Moderne Modelle verwenden Pre-Layer-Normalization: Die Norm kommt vor jeder Transformation, nicht danach. Das ermöglicht stabileres Training ohne Warmup-Phase.

Schritt 3 von 8

Multi-Head Attention

Das Herzstück: Multi-Head Self-Attention ermöglicht es jedem Token, Informationen von allen anderen (vorherigen) Tokens zu sammeln.

Attention(Q, K, V) = softmax(QK^T / √d_k) · V

Mehrere Attention-Heads (z.B. h=64) arbeiten parallel, jeder mit eigenen Q/K/V-Projektionen. Das Causal Masking stellt sicher, dass Token nur auf vergangene Positionen attendieren können.

GQA bei Llama 2 70B

64 Query-Heads, aber nur 8 KV-Heads → 8× weniger KV-Cache-Speicher

Schritt 4 von 8

Residual Connection #1

Die Residual Connection (Skip Connection) addiert den ursprünglichen Input zum Attention-Output. Diese "Highway"-Verbindung ist entscheidend für das Training sehr tiefer Netzwerke.

output = x + Attention(Norm(x))

Ohne Residuals würden Gradienten in einem 96-Layer-Modell praktisch verschwinden. Die Skip-Verbindungen ermöglichen direkten Gradient-Fluss von der Ausgabe zur Eingabe.

Schritt 5 von 8

Zweite Normalisierung

Vor dem Feedforward-Netzwerk folgt eine weitere RMSNorm-Schicht. Das Muster wiederholt sich: Norm → Transform → Add.

Diese konsistente Struktur macht den Transformer modular und skalierbar – mehr Layer bedeuten einfach mehr identische Blöcke.

Schritt 6 von 8

SwiGLU Feedforward

Das Feedforward-Netzwerk (FFN) verarbeitet jede Position unabhängig. Moderne Modelle nutzen SwiGLU – eine Gating-Variante mit drei statt zwei Gewichtsmatrizen.

SwiGLU(x) = (Swish(xW_gate) ⊗ xV) W_down

Die Hidden-Dimension d_ff ist typischerweise 2,67× d_model (statt 4× beim Original), um bei gleicher Parameterzahl zu bleiben.

Warum SwiGLU?

Der Gating-Mechanismus (⊗) ermöglicht selektive Aktivierung – das Netzwerk kann Teile des Hidden States "ausschalten".

Schritt 7 von 8

Residual Connection #2

Auch um das FFN herum führt eine Residual Connection. Der finale Output des Blocks kombiniert alle Informationsströme:

y = x + Attn + FFN

Durch die additiven Residuals kann Information sowohl unverändert weitergeleitet als auch transformiert werden – das Modell lernt Deltas zur Eingabe.

Schritt 8 von 8

Block-Output

Der Output hat exakt dieselben Dimensionen wie der Input: [B, N, d_model]. Er wird zur Eingabe des nächsten Blocks – oder, im letzten Layer, zur finalen Projektion auf das Vokabular.

Modell	Layers	d_model	Heads
GPT-3 175B	96	12.288	96
Llama 3 70B	80	8.192	64
Mistral 7B	32	4.096	32

Gesamtstruktur

Input → [Block × N] → Final Norm → Linear → Softmax → Token-Wahrscheinlichkeiten