Model Architecture Comparison

🔴 Dense (Transformer Standard)

Alle Parameter sind für jeden Token aktiv. Basis: Vaswani et al. Attention is All You Need.

Parameter

Alle aktiv

Inference Speed

Langsam (groß)

Training

Einfach, stabil

Context

Bis ~200K

Modelle: GPT-4, Claude 3.5, Llama 3.1 405B

🟢 Sparse MoE (Mixture of Experts)

Nur Top-k Experten aktiv pro Token. Skaliert Parameter bei gleichem Compute.

Parameter

Meiste inaktiv

Inference Speed

Schnell (Top-k)

Training

Komplexer (Load Bal.)

Context

Standard

Modelle: Mixtral 8×7B, DeepSeek V3

🔵 Hybrid (Moderne Innovationen)

Kombination von Attention + Linear RNNs oder State-Machines. Reduziert O(n²) Komplexität.

Parameter

Effizient

Inference Speed

Sehr schnell

Training

Neu, erforscht

Context

Unbegrenzt

Modelle: Mamba, Hydra, RWKV

Eigenschaft	Dense	MoE	Hybrid
Speicherkomplexität	O(n) Attention, O(d²) FFN	O(n) Router, O(d) Expert	O(1) oder O(n) je Design
Trainierbarkeit	Einfach, konvergiert gut	Instabil, braucht Balancing	Noch erforscht
Inferenz Latency	O(n) mit KV-Cache	O(log n) Router + Top-k	O(1) ideal
Long Context	Flash Attention → 200K	Gleich wie Dense	Unbegrenzt möglich
Deployment	Standard, viele Optimierungen	Komplexer Routing	Noch nicht mainstream
Production-Readiness	100% erprobt	95% (Mixtral, DeepSeek)	50% (forschend)

📊

Dense dominiert Production

GPT-4, Claude, Llama alle dense. Simplizität in Training & Deployment schlägt Efficiency-Gains von MoE. KV-Cache + Flash Attention genug.

⚡

MoE = Effizienzmultiplier

Mixtral 8×7B: 13B aktiv, aber 47B gesamt. Spart Compute während viele Parameter behält. Aber Router Overhead + Load-Balancing komplex.

🚀

Hybrid Frontier 2025+

Mamba, State Space Models: O(n) statt O(n²). Unbegrenzter Context theoretisch. Aber Reasoning-Fähigkeiten noch nicht auf Attention-Level.

💡

Wahl hängt ab von:

Latency-Requirements: Hybrid. Accuracy Priorität: Dense. Cost-Effizienz: MoE. Unbegrenzte Context: Hybrid. Production: Dense.

📈

Scaling Laws unterschiedlich

Dense: Power-Law mit Parametern. MoE: Sub-linear (Router-Overhead). Hybrid: Unbekannt (noch nicht gekalibriert).

🔮

Zukunft: Hybrid + Dense Mix

Wahrscheinlich nicht Hybrid allein, sondern Hybrid für lange Sequence, Dense für Reasoning. Oder Hybrid Router wählt Dense Blocks.