Mixture of Experts (MoE) Router Simulation

Interaktive MoE-Routing Visualisierung

Top-k:

Experten:

Eingabe-Tokens (klicken zum Auswaehlen)

Router-Netzwerk & Experten-Zuweisung

Experten-Subnetze (FFN-Layer)

Tokens verarbeitet

von 8 Tokens

Aktive Parameter

25%

pro Token (k=2 von 8)

Compute-Ersparnis

vs. Dense-Modell

Load Balancing

Experten-Auslastung (Load Balancing)

💡 Wie funktioniert das Routing?

Jeder Token durchläuft das Router-Netzwerk – ein kleines neuronales Netz, das für jeden Experten einen Score berechnet. Die Top-k Experten mit den höchsten Scores werden aktiviert, ihre Outputs gewichtet kombiniert.

G(x) = Softmax(TopK(x · W_router)) · y = Σ_i∈TopK G(x)_i · E_i(x)

Fig. 1 | Sparse Mixture of Experts Routing. Das Router-Netzwerk weist jeden Token den Top-k Experten zu. Nur diese Experten werden aktiviert – bei k=2 von 8 Experten werden pro Token nur 25% der FFN-Parameter genutzt, während das Modell Zugang zu 4x mehr Parametern hat.

⚡ Warum MoE?

Mehr Parameter, weniger Compute: Mixtral 8x7B hat 47B Parameter, nutzt aber nur ~13B pro Token
Skalierbarkeit: GPT-4 nutzt vermutlich MoE für 1.76T Parameter
Spezialisierung: Experten lernen unterschiedliche Aspekte der Sprache

⚖️ Load Balancing

Problem: Ohne Balancing werden wenige Experten überlastet
Auxiliary Loss: Bestraft ungleiche Verteilung während Training
Capacity Factor: Begrenzt Tokens pro Experte (typisch: 1.25)

📊 Modelle mit MoE

Modell	Experten	Top-k	Total Params
Mixtral 8x7B	8	2	47B
DeepSeek V3	256	8	671B
Grok-1	8	2	314B
GPT-4 (vermutet)	16	2	~1.76T
Llama 4 Scout	8	2	109B
Llama 4 Maverick	128	8	400B
Llama 4 Behemoth	16	2	2T

Verwandte Visualisierungen