Alle Parameter sind für jeden
Token aktiv. Basis: Vaswani et al. Attention is All You Need.
Inference Speed
Langsam (groß)
Modelle: GPT-4, Claude 3.5, Llama 3.1 405B
Nur Top-k Experten aktiv pro Token. Skaliert Parameter bei gleichem Compute.
Inference Speed
Schnell (Top-k)
Training
Komplexer (Load Bal.)
Modelle: Mixtral 8×7B, DeepSeek V3
🔵 Hybrid (Moderne Innovationen)
Kombination von Attention + Linear RNNs oder State-Machines. Reduziert O(n²) Komplexität.
Inference Speed
Sehr schnell
Modelle: Mamba, Hydra, RWKV
📊
Dense dominiert Production
GPT-4, Claude, Llama alle dense. Simplizität in Training & Deployment schlägt Efficiency-Gains von MoE. KV-Cache + Flash Attention genug.
⚡
MoE = Effizienzmultiplier
Mixtral 8×7B: 13B aktiv, aber 47B gesamt. Spart Compute während viele Parameter behält. Aber Router Overhead + Load-Balancing komplex.
🚀
Hybrid Frontier 2025+
Mamba, State Space Models: O(n) statt O(n²). Unbegrenzter Context theoretisch. Aber Reasoning-Fähigkeiten noch nicht auf Attention-Level.
💡
Wahl hängt ab von:
Latency-Requirements: Hybrid. Accuracy Priorität: Dense. Cost-Effizienz: MoE. Unbegrenzte Context: Hybrid. Production: Dense.
📈
Scaling Laws unterschiedlich
Dense: Power-Law mit Parametern. MoE: Sub-linear (Router-Overhead). Hybrid: Unbekannt (noch nicht gekalibriert).
🔮
Zukunft: Hybrid + Dense Mix
Wahrscheinlich nicht Hybrid allein, sondern Hybrid für lange Sequence, Dense für Reasoning. Oder Hybrid Router wählt Dense Blocks.