Scrollen Sie durch die einzelnen Komponenten eines Decoder-only Transformer-Blocks. Jede Schicht transformiert die Eingabe – von Token-Embeddings bis zur finalen Repräsentation.
Jeder Transformer-Block erhält eine Sequenz von Token-Repräsentationen als Eingabe. Diese bestehen aus der Summe von Token-Embeddings (was ist das Wort?) und Position Encodings (wo steht es?).
Vor der Attention-Schicht wird der Input durch RMSNorm (Root Mean Square Normalization) normalisiert. Dies ist eine vereinfachte Version von LayerNorm ohne Mean-Shifting.
Moderne Modelle verwenden Pre-Layer-Normalization: Die Norm kommt vor jeder Transformation, nicht danach. Das ermöglicht stabileres Training ohne Warmup-Phase.
Das Herzstück: Multi-Head Self-Attention ermöglicht es jedem Token, Informationen von allen anderen (vorherigen) Tokens zu sammeln.
Mehrere Attention-Heads (z.B. h=64) arbeiten parallel, jeder mit eigenen Q/K/V-Projektionen. Das Causal Masking stellt sicher, dass Token nur auf vergangene Positionen attendieren können.
Die Residual Connection (Skip Connection) addiert den ursprünglichen Input zum Attention-Output. Diese "Highway"-Verbindung ist entscheidend für das Training sehr tiefer Netzwerke.
Ohne Residuals würden Gradienten in einem 96-Layer-Modell praktisch verschwinden. Die Skip-Verbindungen ermöglichen direkten Gradient-Fluss von der Ausgabe zur Eingabe.
Vor dem Feedforward-Netzwerk folgt eine weitere RMSNorm-Schicht. Das Muster wiederholt sich: Norm → Transform → Add.
Diese konsistente Struktur macht den Transformer modular und skalierbar – mehr Layer bedeuten einfach mehr identische Blöcke.
Das Feedforward-Netzwerk (FFN) verarbeitet jede Position unabhängig. Moderne Modelle nutzen SwiGLU – eine Gating-Variante mit drei statt zwei Gewichtsmatrizen.
Die Hidden-Dimension dff ist typischerweise 2,67× d_model (statt 4× beim Original), um bei gleicher Parameterzahl zu bleiben.
Auch um das FFN herum führt eine Residual Connection. Der finale Output des Blocks kombiniert alle Informationsströme:
Durch die additiven Residuals kann Information sowohl unverändert weitergeleitet als auch transformiert werden – das Modell lernt Deltas zur Eingabe.
Der Output hat exakt dieselben Dimensionen wie der Input: [B, N, d_model]. Er wird zur Eingabe des nächsten Blocks – oder, im letzten Layer, zur finalen Projektion auf das Vokabular.
| Modell | Layers | d_model | Heads |
|---|---|---|---|
| GPT-3 175B | 96 | 12.288 | 96 |
| Llama 3 70B | 80 | 8.192 | 64 |
| Mistral 7B | 32 | 4.096 | 32 |