MMLU Score (General Knowledge) über Zeit
OpenAI (GPT-Series)
Meta (LLaMA)
Anthropic (Claude)
DeepSeek
Fig. 1 | Bubble-Chart: X=Release Date, Y=MMLU Score, Size=Parameter Count. Trend: Exponentielles Wachstum 2017-2023, dann Plateauing bei Knowledge. Reasoning-Modelle (o3) zeigen neuen Aufstieg.
Modell Release Parameter MMLU ARC Math Besonderheit
Transformer 2017 - - - - Architektur-Basis
BERT 2018 340M 77.3% 64.6% - Encoder-Only
GPT-3 175B 2020 175B 54.9% 51.4% 2% In-Context Learning
LLaMA 2 70B 2023 70B 63.9% 68.2% 28.7% Open-Source
GPT-4 2023 ~1.8T 86.4% 92.3% 49.9% MoE, Multimodal
Claude 3.5 2024 ~175B 88.3% 94.2% 58% Constitutional AI
Llama 3.1 405B 2024 405B 85.9% 92.3% 53.3% Dense, Open
o3 (April 2025) 2025 ? 92.3% 96.1% 96.4% Test-Time Compute
📈
Exponentielles Wachstum 2017-2023
MMLU wuchs von ~50% (GPT-3) auf 86% (GPT-4) in 3 Jahren. Log-Plot zeigt Power-Law: ~13% MMLU-Gain pro Doubling der Parameter.
⏸️
Knowledge-Plateau bei 90%
Claude 3.5: 88%, o3: 92%. MMLU scheint bei 90-95% zu sättigen. Weitere Verbesserungen brauchen neue Metrics oder Reasoning.
🧠
Reasoning-Modelle sprengen Math
GPT-4: 49.9% Math. o3: 96.4%. Nicht durch Parameter, sondern durch Test-Time Compute (RL + Verification). Neuer Trend 2025.
🔓
Open-Source schließt auf
Llama 2 70B (2023) vs GPT-4 großer Gap. Llama 3.1 405B (2024) fast gleichauf (85.9% vs 86.4%). Commodity Hardware möglich.
💎
Smaller ≠ Worse mehr
Claude 3.5 (~175B): 88.3% MMLU. Llama 405B: 85.9%. Cleveres Design schlägt Raw Parameter in 2024.
🚀
Nächste Frontier: Reasoning
o1/o3 zeigen: Test-Time Compute ist neue Skalierungs-Achse. MMLU vielleicht gesättigt, aber Math/Code/Reasoning explodieren weiter.