Parameter vs Compute – LLM Explorer

Fig. 1 | Vergleich: Dense Model (13B Parameter, 13B aktiv) vs MoE (47B Parameter, 13B aktiv). Die "aktive" Compute ist identisch, aber MoE kann 3.6× mehr Parameter speichern.

Dense Model (z.B. GPT-3)

Gesamtparameter 13B

Aktive Parameter 13B (100%)

Speicherbedarf 26 GB (FP16)

Compute pro Token 26B FLOPS

MoE Model (z.B. Mixtral 8x7B)

Gesamtparameter 47B

Aktive Parameter 13B (27%)

Speicherbedarf 94 GB (FP16, alle 8)

Compute pro Token 26B FLOPS ✓ Gleich!

Der MoE Vorteil: Warum funktioniert das?

Sparse Activation: In einem Dense-Modell wird jeder Parameter für jeden Token verwendet. In einem MoE-Modell aktiviert der Router nur eine Teilmenge der Experten (z.B. Top-2 von 8). Dies reduziert die tatsächliche Compute linear.

Speicher- vs Compute-Trade-off: Sie müssen alle Experten-Parameter im Speicher halten (94 GB), aber Sie nutzen nur 27% davon pro Token. Dies ist in großen Cluster-Umgebungen mit mehreren GPUs praktisch: Man kann Experten über verschiedene Geräte verteilen.

Spezialisierung: Mit 8 Experten können verschiedene Experten spezialisiert werden auf: Grammatik, Semantik, Code, Entitäten, Mathematik, etc. Dies ermöglicht feinere Kontrolle und bessere Performance auf spezialisierten Tasks.

Skalierungsgesetz: Nach dem Chinchilla Optimum sollte man Modellgröße und Datenmenge proportional skalieren. MoE erlaubt asymmetrische Skalierung: Man kann Parameter "günstig" hinzufügen, solange die Experten spezialisiert bleiben.

Praktischer Nutzen: Eine MoE mit 13B aktiver Compute ist schneller als ein Dense 13B Modell der gleichen Qualität, weil die zusätzlichen inaktiven Parameter trotzdem zu besserer Repräsentation führen (mehr Kapazität für verschiedene Konzepte).

Modell-Größenvergleich: Mixtral 8x7B hat 47B Parameter aber wird oft als "equivalente zu GPT-3 13B" benchmarkt (wegen 13B aktiver Parameter). DeepSeek R1 hat 671B Parameter aber nur 37B aktiv – eine 18× "Vergrößerung" mit gleicher Compute!

Modell-Vergleichstabelle

Modell	Architektur	Gesamtparameter	Aktive Parameter	Verhältnis	Release
GPT-3 DENSE	Dense Transformer	175B	175B	1:1 (100%)	2020
Mixtral 8x7B MoE	8 Expert MoE	47B	13B	3.6:1 (27%)	2023
Mixtral 8x22B MoE	8 Expert MoE	141B	39B	3.6:1 (27%)	2024
Grok-1 MoE	? Expert MoE	314B	~86B	~3.6:1	2023
DeepSeek R1 MoE	Multi-Expert MoE	671B	37B	18.1:1 (5.5%)	2024