Architektur-Parameter

Anzahl Transformer-Blöcke im Stack
Hidden State Dimension
Multi-Head Attention Heads
MHA: gleich wie Q. GQA: weniger. MQA: 1
Feedforward Intermediate Dimension
Anzahl verschiedener Tokens
FFN wird zu N Experten repliziert

Ergebnisse

Gesamtparameter
0 Milliarden
Speicherbedarf (FP16)
0 GB
Inference FLOPs pro Token
0 TFLOPs

Parameter-Verteilung

Embedding Matrix 0 M
Attention (Q, K, V, O) 0 M
Output Projection 0 M
Formeln
Attention: 4 × d_model² (Q, K, V, O)
FFN (ReLU): 2 × d_model × d_ff (W1, W2)
FFN (SwiGLU): 3 × d_model × d_ff (W, V, W2)
LayerNorm: 2 × d_model pro Layer (Gain, Bias)
Embedding: vocab_size × d_model
Output: d_model × vocab_size (wenn kein Weight Tying)
GQA-Anpassung
query-attention" class="glossary-term">Grouped Query Attention reduziert die K/V-Projektion. Statt h × (d_k+d_v) nur n_kv_heads × (d_k+d_v). Bei Llama 2 70B: 64 Q-Heads, 8 KV-Heads.
MoE-Effizienz
Bei Mixture of Experts werden FFN-Parameter repliziert. Aber nur Top-k Experten sind pro Token aktiv. Mixtral 8x7B: 47B total, 13B aktiv.
Speicherüberlegungen
FP16: 2 Bytes pro Parameter. FP32: 4 Bytes. INT8: 1 Byte. INT4: 0.5 Bytes. Zusätzlich: Gradienten (Training), KV-Cache (Inferenz), Activations.
FLOPs-Schätzung
Inference: ~2 × Parameter pro Token generiert. Training: ~6 × Parameter × Tokens (Forward + Backward). Bei MoE: Nur aktive Parameter zählen.