Fig. 1 | Vergleich: Dense Model (13B Parameter, 13B aktiv) vs MoE (47B Parameter, 13B aktiv). Die "aktive" Compute ist identisch, aber MoE kann 3.6× mehr Parameter speichern.

Dense Model (z.B. GPT-3)

Gesamtparameter 13B
Aktive Parameter 13B (100%)
Speicherbedarf 26 GB (FP16)
Compute pro Token 26B FLOPS

MoE Model (z.B. Mixtral 8x7B)

Gesamtparameter 47B
Aktive Parameter 13B (27%)
Speicherbedarf 94 GB (FP16, alle 8)
Compute pro Token 26B FLOPS ✓ Gleich!

Der MoE Vorteil: Warum funktioniert das?

1
Sparse Activation: In einem Dense-Modell wird jeder Parameter für jeden Token verwendet. In einem MoE-Modell aktiviert der Router nur eine Teilmenge der Experten (z.B. Top-2 von 8). Dies reduziert die tatsächliche Compute linear.
2
Speicher- vs Compute-Trade-off: Sie müssen alle Experten-Parameter im Speicher halten (94 GB), aber Sie nutzen nur 27% davon pro Token. Dies ist in großen Cluster-Umgebungen mit mehreren GPUs praktisch: Man kann Experten über verschiedene Geräte verteilen.
3
Spezialisierung: Mit 8 Experten können verschiedene Experten spezialisiert werden auf: Grammatik, Semantik, Code, Entitäten, Mathematik, etc. Dies ermöglicht feinere Kontrolle und bessere Performance auf spezialisierten Tasks.
4
Skalierungsgesetz: Nach dem Chinchilla Optimum sollte man Modellgröße und Datenmenge proportional skalieren. MoE erlaubt asymmetrische Skalierung: Man kann Parameter "günstig" hinzufügen, solange die Experten spezialisiert bleiben.
5
Praktischer Nutzen: Eine MoE mit 13B aktiver Compute ist schneller als ein Dense 13B Modell der gleichen Qualität, weil die zusätzlichen inaktiven Parameter trotzdem zu besserer Repräsentation führen (mehr Kapazität für verschiedene Konzepte).
6
Modell-Größenvergleich: Mixtral 8x7B hat 47B Parameter aber wird oft als "equivalente zu GPT-3 13B" benchmarkt (wegen 13B aktiver Parameter). DeepSeek R1 hat 671B Parameter aber nur 37B aktiv – eine 18× "Vergrößerung" mit gleicher Compute!

Modell-Vergleichstabelle

Modell Architektur Gesamtparameter Aktive Parameter Verhältnis Release
GPT-3 DENSE Dense Transformer 175B 175B 1:1 (100%) 2020
Mixtral 8x7B MoE 8 Expert MoE 47B 13B 3.6:1 (27%) 2023
Mixtral 8x22B MoE 8 Expert MoE 141B 39B 3.6:1 (27%) 2024
Grok-1 MoE ? Expert MoE 314B ~86B ~3.6:1 2023
DeepSeek R1 MoE Multi-Expert MoE 671B 37B 18.1:1 (5.5%) 2024