🔴 Dense (Transformer Standard)
Alle Parameter sind für jeden Token aktiv. Basis: Vaswani et al. Attention is All You Need.
Parameter
Alle aktiv
Inference Speed
Langsam (groß)
Training
Einfach, stabil
Context
Bis ~200K
Modelle: GPT-4, Claude 3.5, Llama 3.1 405B
🟢 Sparse MoE (Mixture of Experts)
Nur Top-k Experten aktiv pro Token. Skaliert Parameter bei gleichem Compute.
Parameter
Meiste inaktiv
Inference Speed
Schnell (Top-k)
Training
Komplexer (Load Bal.)
Context
Standard
Modelle: Mixtral 8×7B, DeepSeek V3
🔵 Hybrid (Moderne Innovationen)
Kombination von Attention + Linear RNNs oder State-Machines. Reduziert O(n²) Komplexität.
Parameter
Effizient
Inference Speed
Sehr schnell
Training
Neu, erforscht
Context
Unbegrenzt
Modelle: Mamba, Hydra, RWKV
Eigenschaft Dense MoE Hybrid
Speicherkomplexität O(n) Attention, O(d²) FFN O(n) Router, O(d) Expert O(1) oder O(n) je Design
Trainierbarkeit Einfach, konvergiert gut Instabil, braucht Balancing Noch erforscht
Inferenz Latency O(n) mit KV-Cache O(log n) Router + Top-k O(1) ideal
Long Context Flash Attention → 200K Gleich wie Dense Unbegrenzt möglich
Deployment Standard, viele Optimierungen Komplexer Routing Noch nicht mainstream
Production-Readiness 100% erprobt 95% (Mixtral, DeepSeek) 50% (forschend)
📊
Dense dominiert Production
GPT-4, Claude, Llama alle dense. Simplizität in Training & Deployment schlägt Efficiency-Gains von MoE. KV-Cache + Flash Attention genug.
MoE = Effizienzmultiplier
Mixtral 8×7B: 13B aktiv, aber 47B gesamt. Spart Compute während viele Parameter behält. Aber Router Overhead + Load-Balancing komplex.
🚀
Hybrid Frontier 2025+
Mamba, State Space Models: O(n) statt O(n²). Unbegrenzter Context theoretisch. Aber Reasoning-Fähigkeiten noch nicht auf Attention-Level.
💡
Wahl hängt ab von:
Latency-Requirements: Hybrid. Accuracy Priorität: Dense. Cost-Effizienz: MoE. Unbegrenzte Context: Hybrid. Production: Dense.
📈
Scaling Laws unterschiedlich
Dense: Power-Law mit Parametern. MoE: Sub-linear (Router-Overhead). Hybrid: Unbekannt (noch nicht gekalibriert).
🔮
Zukunft: Hybrid + Dense Mix
Wahrscheinlich nicht Hybrid allein, sondern Hybrid für lange Sequence, Dense für Reasoning. Oder Hybrid Router wählt Dense Blocks.