Wie das Router-Netzwerk entscheidet, welche Experten-Subnetze für jeden Token aktiviert werden –
der Schluessel zu effizienten Modellen mit Billionen von Parametern.
Jeder Token durchläuft das Router-Netzwerk – ein kleines neuronales Netz,
das für jeden Experten einen Score berechnet. Die Top-k Experten mit den höchsten Scores
werden aktiviert, ihre Outputs gewichtet kombiniert.
Fig. 1 |
Sparse Mixture of Experts Routing. Das Router-Netzwerk weist jeden Token den Top-k Experten zu.
Nur diese Experten werden aktiviert – bei k=2 von 8 Experten werden pro Token nur 25% der
FFN-Parameter genutzt, während das Modell Zugang zu 4x mehr Parametern hat.
⚡ Warum MoE?
Mehr Parameter, weniger Compute: Mixtral 8x7B hat 47B Parameter, nutzt aber nur ~13B pro Token
Skalierbarkeit: GPT-4 nutzt vermutlich MoE für 1.76T Parameter
Spezialisierung: Experten lernen unterschiedliche Aspekte der Sprache
⚖️ Load Balancing
Problem: Ohne Balancing werden wenige Experten überlastet
Auxiliary Loss: Bestraft ungleiche Verteilung während Training
Capacity Factor: Begrenzt Tokens pro Experte (typisch: 1.25)