Gesamter Training-Fortschritt

Wichtige Meilensteine

Key Insights

Schlüssel-Erkenntnisse

1
Emergenz ist plötzlich: DeepSeek R1-Zero zeigte fast 0% Reasoning während des ersten Trainings. Dann, bei Iteration ~400k, plötzlich Jump auf 20%. Das ist emergentes Verhalten – nicht graduell.
2
GRPO ≠ Standard RL: Group Relative Policy Optimization ist nicht PPO. Es optimiert relative Ranker zwischen Gruppen von Lösungen. Deswegen entstehen Reasoning-Fähigkeiten ohne Supervised Fine-Tuning.
3
Reward ist verifikationsbasiert: DeepSeek R1 nutzt nur korrektes-vs-falsches-Ergebnis als Signal, nicht step-by-step. Trotzdem lernt das Modell Chain-of-Thought. Das ist überraschend.
4
Base Model Qualität ist kritisch: R1-Zero trainiert auf Qwen-70B-Base (nicht Qwen-Chat). Mit Chat-Base würde SFT Bias das Reasoning unterdrücken. Base-Model ist unbefangen.
5
Langkettige CoT lernt von selbst: Kein Verfahren erzwingt lange Token-Ausgaben. Das Modell lernt selbständig, dass "Denken" (viele Tokens) bessere Accuracy ergibt. Das ist Lern-Erkenntnis.
6
Skalierung der Denkzeit ist möglich: O3 zeigt, dass mehr Compute während Inferenz (mehr Token zum Denken) bessere Ergebnisse ergibt. Das öffnet neue Skalierungsachse.