LLM Explorer – Causal Masking

Causal Masking in 3 Schritten:

1. Berechne Attention-Scores: S = QK^T / √d_k
2. Addiere Maske: S_masked = S + M (wobei M[i,j] = -∞ für j > i)
3. Softmax: A = softmax(S_masked)

Resultat: A[i,j] = 0 für alle j > i (zukünftige Positionen)

Warum Causal Mask?

Bei autoregressiver Generierung darf Token t nur Informationen von Tokens 0..t-1 verwenden. Dies verhindert "Information Leakage" aus der Zukunft während des Trainings.

Implementierung

Die Maske ist eine obere Dreiecksmatrix mit -∞. Nach Addition zu den Scores werden diese Positionen durch Softmax zu exakt 0, nicht nur zu einem sehr kleinen Wert.

Decoder vs. Encoder

Decoder-only Modelle (GPT, Llama) verwenden immer Causal Masking. Encoder-only (BERT) nutzen bidirektionale Attention ohne Maske. Encoder-Decoder (T5) kombinieren beide.

Training vs. Inferenz

Die Maske ist in Training und Inferenz identisch. Training: Alle Tokens parallel, aber maskiert. Inferenz: Token-für-Token Generierung mit wachsendem Kontext.