Benchmark Evolution Timeline

Modell	Release	Parameter	MMLU	ARC	Math	Besonderheit
Transformer	2017	-	-	-	-	Architektur-Basis
BERT	2018	340M	77.3%	64.6%	-	Encoder-Only
GPT-3 175B	2020	175B	54.9%	51.4%	2%	In-Context Learning
LLaMA 2 70B	2023	70B	63.9%	68.2%	28.7%	Open-Source
GPT-4	2023	~1.8T	86.4%	92.3%	49.9%	MoE, Multimodal
Claude 3.5	2024	~175B	88.3%	94.2%	58%	Constitutional AI
Llama 3.1 405B	2024	405B	85.9%	92.3%	53.3%	Dense, Open
o3 (April 2025)	2025	?	92.3%	96.1%	96.4%	Test-Time Compute

Modell

Release

Parameter

MMLU

ARC

Math

Besonderheit

Transformer

2017

Architektur-Basis

BERT

2018

340M

77.3%

64.6%

Encoder-Only

GPT-3 175B

2020

175B

54.9%

51.4%

In-Context Learning

LLaMA 2 70B

2023

70B

63.9%

68.2%

28.7%

Open-Source

GPT-4

2023

~1.8T

86.4%

92.3%

49.9%

MoE, Multimodal

Claude 3.5

2024

~175B

88.3%

94.2%

58%

Constitutional AI

Llama 3.1 405B

2024

405B

85.9%

92.3%

53.3%

Dense, Open

o3 (April 2025)

2025

92.3%

96.1%

96.4%

Test-Time Compute

📈

Exponentielles Wachstum 2017-2023

MMLU wuchs von ~50% (GPT-3) auf 86% (GPT-4) in 3 Jahren. Log-Plot zeigt Power-Law: ~13% MMLU-Gain pro Doubling der Parameter.

⏸️

Knowledge-Plateau bei 90%

Claude 3.5: 88%, o3: 92%. MMLU scheint bei 90-95% zu sättigen. Weitere Verbesserungen brauchen neue Metrics oder Reasoning.

🧠

Reasoning-Modelle sprengen Math

GPT-4: 49.9% Math. o3: 96.4%. Nicht durch Parameter, sondern durch Test-Time Compute (RL + Verification). Neuer Trend 2025.

🔓

Open-Source schließt auf

Llama 2 70B (2023) vs GPT-4 großer Gap. Llama 3.1 405B (2024) fast gleichauf (85.9% vs 86.4%). Commodity Hardware möglich.

💎

Smaller ≠ Worse mehr

Claude 3.5 (~175B): 88.3% MMLU. Llama 405B: 85.9%. Cleveres Design schlägt Raw Parameter in 2024.

🚀

Nächste Frontier: Reasoning

o1/o3 zeigen: Test-Time Compute ist neue Skalierungs-Achse. MMLU vielleicht gesättigt, aber Math/Code/Reasoning explodieren weiter.