Wie MoE-Modelle mehr Parameter mit gleicher Compute-Kostne haben können als Dense-Modelle
| Modell | Architektur | Gesamtparameter | Aktive Parameter | Verhältnis | Release |
|---|---|---|---|---|---|
| GPT-3 DENSE | Dense Transformer | 175B | 175B | 1:1 (100%) | 2020 |
| Mixtral 8x7B MoE | 8 Expert MoE | 47B | 13B | 3.6:1 (27%) | 2023 |
| Mixtral 8x22B MoE | 8 Expert MoE | 141B | 39B | 3.6:1 (27%) | 2024 |
| Grok-1 MoE | ? Expert MoE | 314B | ~86B | ~3.6:1 | 2023 |
| DeepSeek R1 MoE | Multi-Expert MoE | 671B | 37B | 18.1:1 (5.5%) | 2024 |