Decoder-Only Transformer Block Pre-LN
Input Embeddings Eingabe
[B, N, d_model]
RMSNorm 1
RMSNorm Pre-LN
[B, N, d_model] → [B, N, d_model]
Multi-Head Attention with Residual
Multi-Head Attention Causal
[B, N, d_model] → [B, N, d_model]
Add (Residual) +
x + Attention(x)
RMSNorm Pre-LN
[B, N, d_model] → [B, N, d_model]
SwiGLU FFN MLP
[B, N, d_model] → [B, N, d_ff] → [B, N, d_model]
Add (Residual) +
x + FFN(x)
Block Output → Next Layer
[B, N, d_model]
Schritt 1 von 8

Die Eingabe: Token-Embeddings

Jeder Transformer-Block erhält eine Sequenz von Token-Repräsentationen als Eingabe. Diese bestehen aus der Summe von Token-Embeddings (was ist das Wort?) und Position Encodings (wo steht es?).

BBatch NSequenzlänge d_modelz.B. 4096
Typische Werte
Llama 3 70B: d_model = 8.192, N = bis zu 128K Tokens
Schritt 2 von 8

RMSNorm: Stabilisierung

Vor der Attention-Schicht wird der Input durch RMSNorm (Root Mean Square Normalization) normalisiert. Dies ist eine vereinfachte Version von LayerNorm ohne Mean-Shifting.

RMSNorm(x) = x / √(mean(x²) + ε) · γ

Moderne Modelle verwenden Pre-Layer-Normalization: Die Norm kommt vor jeder Transformation, nicht danach. Das ermöglicht stabileres Training ohne Warmup-Phase.

Schritt 3 von 8

Multi-Head Attention

Das Herzstück: Multi-Head Self-Attention ermöglicht es jedem Token, Informationen von allen anderen (vorherigen) Tokens zu sammeln.

Attention(Q, K, V) = softmax(QKT / √dk) · V

Mehrere Attention-Heads (z.B. h=64) arbeiten parallel, jeder mit eigenen Q/K/V-Projektionen. Das Causal Masking stellt sicher, dass Token nur auf vergangene Positionen attendieren können.

GQA bei Llama 2 70B
64 Query-Heads, aber nur 8 KV-Heads → 8× weniger KV-Cache-Speicher
Schritt 4 von 8

Residual Connection #1

Die Residual Connection (Skip Connection) addiert den ursprünglichen Input zum Attention-Output. Diese "Highway"-Verbindung ist entscheidend für das Training sehr tiefer Netzwerke.

output = x + Attention(Norm(x))

Ohne Residuals würden Gradienten in einem 96-Layer-Modell praktisch verschwinden. Die Skip-Verbindungen ermöglichen direkten Gradient-Fluss von der Ausgabe zur Eingabe.

Schritt 5 von 8

Zweite Normalisierung

Vor dem Feedforward-Netzwerk folgt eine weitere RMSNorm-Schicht. Das Muster wiederholt sich: Norm → Transform → Add.

Diese konsistente Struktur macht den Transformer modular und skalierbar – mehr Layer bedeuten einfach mehr identische Blöcke.

Schritt 6 von 8

SwiGLU Feedforward

Das Feedforward-Netzwerk (FFN) verarbeitet jede Position unabhängig. Moderne Modelle nutzen SwiGLU – eine Gating-Variante mit drei statt zwei Gewichtsmatrizen.

SwiGLU(x) = (Swish(xWgate) ⊗ xV) Wdown

Die Hidden-Dimension dff ist typischerweise 2,67× d_model (statt 4× beim Original), um bei gleicher Parameterzahl zu bleiben.

Warum SwiGLU?
Der Gating-Mechanismus (⊗) ermöglicht selektive Aktivierung – das Netzwerk kann Teile des Hidden States "ausschalten".
Schritt 7 von 8

Residual Connection #2

Auch um das FFN herum führt eine Residual Connection. Der finale Output des Blocks kombiniert alle Informationsströme:

y = x + Attn + FFN

Durch die additiven Residuals kann Information sowohl unverändert weitergeleitet als auch transformiert werden – das Modell lernt Deltas zur Eingabe.

Schritt 8 von 8

Block-Output

Der Output hat exakt dieselben Dimensionen wie der Input: [B, N, d_model]. Er wird zur Eingabe des nächsten Blocks – oder, im letzten Layer, zur finalen Projektion auf das Vokabular.

Modell Layers d_model Heads
GPT-3 175B 96 12.288 96
Llama 3 70B 80 8.192 64
Mistral 7B 32 4.096 32
Gesamtstruktur
Input → [Block × N] → Final Norm → Linear → Softmax → Token-Wahrscheinlichkeiten