Warum Causal Mask?
Bei autoregressiver Generierung darf Token t nur Informationen von Tokens 0..t-1 verwenden. Dies verhindert "Information Leakage" aus der Zukunft während des Trainings.
Implementierung
Die Maske ist eine obere Dreiecksmatrix mit -∞. Nach Addition zu den Scores werden diese Positionen durch Softmax zu exakt 0, nicht nur zu einem sehr kleinen Wert.
Decoder vs. Encoder
Decoder-only Modelle (GPT, Llama) verwenden immer Causal Masking. Encoder-only (BERT) nutzen bidirektionale Attention ohne Maske. Encoder-Decoder (T5) kombinieren beide.
Training vs. Inferenz
Die Maske ist in Training und Inferenz identisch. Training: Alle Tokens parallel, aber maskiert. Inferenz: Token-für-Token Generierung mit wachsendem Kontext.