Interaktive MoE-Routing Visualisierung
Tokens verarbeitet
0
von 8 Tokens
Aktive Parameter
25%
pro Token (k=2 von 8)
Compute-Ersparnis
4x
vs. Dense-Modell
Load Balancing
💡 Wie funktioniert das Routing?
Jeder Token durchläuft das Router-Netzwerk – ein kleines neuronales Netz, das für jeden Experten einen Score berechnet. Die Top-k Experten mit den höchsten Scores werden aktiviert, ihre Outputs gewichtet kombiniert.
G(x) = Softmax(TopK(x · Wrouter)) · y = Σi∈TopK G(x)i · Ei(x)
Fig. 1 | Sparse Mixture of Experts Routing. Das Router-Netzwerk weist jeden Token den Top-k Experten zu. Nur diese Experten werden aktiviert – bei k=2 von 8 Experten werden pro Token nur 25% der FFN-Parameter genutzt, während das Modell Zugang zu 4x mehr Parametern hat.
Warum MoE?
  • Mehr Parameter, weniger Compute: Mixtral 8x7B hat 47B Parameter, nutzt aber nur ~13B pro Token
  • Skalierbarkeit: GPT-4 nutzt vermutlich MoE für 1.76T Parameter
  • Spezialisierung: Experten lernen unterschiedliche Aspekte der Sprache
⚖️ Load Balancing
  • Problem: Ohne Balancing werden wenige Experten überlastet
  • Auxiliary Loss: Bestraft ungleiche Verteilung während Training
  • Capacity Factor: Begrenzt Tokens pro Experte (typisch: 1.25)
📊 Modelle mit MoE
Modell Experten Top-k Total Params
Mixtral 8x7B 8 2 47B
DeepSeek V3 256 8 671B
Grok-1 8 2 314B
GPT-4 (vermutet) 16 2 ~1.76T
Llama 4 Scout 8 2 109B
Llama 4 Maverick 128 8 400B
Llama 4 Behemoth 16 2 2T