DeepSeek R1-Zero ist bemerkenswert: Es ist ein Basismodell (ohne Supervised Fine-Tuning) das nur durch Reinforcement Learning mit rule-basierten Belohnungen trainiert wurde. Das Ergebnis: Das Modell entwickelt spontan Chain-of-Thought-Reasoning, Selbstverifikation und Reflexionsfähigkeiten.
Wichtige Erkenntnisse:
- Keine manuellen Reasoning-Exemplare nötig: R1-Zero wurde NICHT mit beispielhaften CoT-Outputs trainiert
- Emergenz aus RL: Nur das Ziel (korrektes Ergebnis) und das Feedback (Reward) waren notwendig
- Praktische Belohnungen: Mathematik: richtig/falsch. Code: läuft/crasht. Format-Fehler: Bestrafung
- Dramatische Verbesserung: AIME 2024 von 15.6% (Basis) auf 71.0% (nach RL)