6 Tokens
Schritt 1: Volle Attention-Matrix (ohne Maske)
Zunächst wird die Attention-Matrix QK^T berechnet. Jedes Token kann theoretisch auf alle anderen attendieren.
Causal Masking in 3 Schritten:

1. Berechne Attention-Scores: S = QK^T / √d_k
2. Addiere Maske: S_masked = S + M (wobei M[i,j] = -∞ für j > i)
3. Softmax: A = softmax(S_masked)

Resultat: A[i,j] = 0 für alle j > i (zukünftige Positionen)
Warum Causal Mask?
Bei autoregressiver Generierung darf Token t nur Informationen von Tokens 0..t-1 verwenden. Dies verhindert "Information Leakage" aus der Zukunft während des Trainings.
Implementierung
Die Maske ist eine obere Dreiecksmatrix mit -∞. Nach Addition zu den Scores werden diese Positionen durch Softmax zu exakt 0, nicht nur zu einem sehr kleinen Wert.
Decoder vs. Encoder
Decoder-only Modelle (GPT, Llama) verwenden immer Causal Masking. Encoder-only (BERT) nutzen bidirektionale Attention ohne Maske. Encoder-Decoder (T5) kombinieren beide.
Training vs. Inferenz
Die Maske ist in Training und Inferenz identisch. Training: Alle Tokens parallel, aber maskiert. Inferenz: Token-für-Token Generierung mit wachsendem Kontext.