DeepSeek R1 & GRPO – LLM Explorer

Das R1-Zero Durchbruch-Experiment

DeepSeek R1-Zero ist bemerkenswert: Es ist ein Basismodell (ohne Supervised Fine-Tuning) das nur durch Reinforcement Learning mit rule-basierten Belohnungen trainiert wurde. Das Ergebnis: Das Modell entwickelt spontan Chain-of-Thought-Reasoning, Selbstverifikation und Reflexionsfähigkeiten.

Wichtige Erkenntnisse:

Keine manuellen Reasoning-Exemplare nötig: R1-Zero wurde NICHT mit beispielhaften CoT-Outputs trainiert
Emergenz aus RL: Nur das Ziel (korrektes Ergebnis) und das Feedback (Reward) waren notwendig
Praktische Belohnungen: Mathematik: richtig/falsch. Code: läuft/crasht. Format-Fehler: Bestrafung
Dramatische Verbesserung: AIME 2024 von 15.6% (Basis) auf 71.0% (nach RL)

Abb. 1 | AIME 2024 Performance: Basis (grün) 15.6%, R1-Zero nach RL (lila) 71.0%. Ein 4.5× Sprung durch reines Reinforcement Learning ohne Supervised Fine-Tuning.

Training-Fortschritt: Anfang

Beispiel:

GRPO – Group Relative Policy Optimization

Der Schlüssel zu DeepSeek R1's Trainings-Effizienz ist der GRPO (Group Relative Policy Optimization) Algorithmus, eine Vereinfachung von PPO (Proximal Policy Optimization).

Das Kernproblem: PPO benötigt ein separates Value-Network (Critic) zur Stabilität. Dies verdoppelt die Speicheranforderungen und Trainingszeit.

GRPO Lösung: Statt eines Critic-Networks generiert man eine Gruppe (z.B. G=8) Outputs pro Prompt. Die Advantage wird relativ zur Gruppe berechnet (z-score Normalisierung), nicht absolut.

GRPO Advantage:

Advantage_i = (reward_i - mean(rewards)) / std(rewards)

Loss = -min(A_i × r_t, A_i × clip(r_t, 1-ε, 1+ε))

Vorteile von GRPO:

Kein Value-Network nötig → 50% Speichereinsparung
Stabilere Konvergenz durch Normalisierung
Einfachere Implementierung
Bessere Skalierung auf große Modelle (671B DeepSeek R1)

Abb. 2 | Architektur-Vergleich: PPO (oben) mit Policy und Value-Networks, GRPO (unten) mit nur Policy und Gruppen-basierter Normalisierung. GRPO ist speichereffizienter und stabiler.

Emergenz von Reasoning während Training

Das Bemerkenswerteste am R1-Zero Experiment ist die Emergenz von Reasoning-Strukturen ohne dass das Modell jemals mit exemplarischen Chain-of-Thought Outputs trainiert wurde.

Trainingsphasen:

Phase 0 (Early RL): Das Modell generiert zufällige Ausgaben, manchmal richtig, oft falsch
Phase 1 (~5B Steps): Spontan beginnt das Modell, "Thinking"-Blöcke zu generieren mit Hypothesen und Überprüfungen
Phase 2 (~15B Steps): CoT-Format wird konsistent. Selbstverifikation emergiert ("Wait, that's wrong, let me recalculate")
Phase 3 (Final): Reflektive Reasoning, mehrfache Überprüfungen, robuste Fehlerbehandlung

Abb. 3 | Emergenz-Timeline: Training-Fortschritt von links (chaotisch) zu rechts (strukturiert CoT). Output-Länge steigt, Struktur wird konsistent, Accuracy springt nach Phase 1.

Entropy Collapse Problem

Während des RL-Trainings kann ein kritisches Problem auftreten: Entropy Collapse. Die Output-Distribution des Modells wird zu eng (niedrige Entropy), was zu repetitiven Antworten und schlechter Generalisierung führt.

⚠️

Problem: Distribution wird zu eng

Symptom: Das Modell konvergiert auf wenige, sich wiederholende Antwort-Patterns.
Folge: Performance-Stagnation trotz fortgesetztem Training.
Ursache: Reward-Signal incentiviert zu stark einzelne „sichere" Outputs.

✅

Lösung: Entropy Monitoring & Schedule Adjustment

Skywork-OR1 Paper (arxiv:2505.22312): Entropy während Training überwachen.
Bei Entropy-Drop: RL-Schedule anpassen (Learning Rate, Reward-Clipping).
Resultat: DeepSeek-R1-Distill-32B: +15.0% Performance (57.8% → 72.8%)

Beispiel: R1-Zero Output bei mathematischem Problem

Problem: "Was ist 47 × 35?"

Basis-Output (keine RL):

# Falsch oder zu kurz
47 × 35 = 1645
            

R1-Zero Output (nach RL):

<thinking>
I need to calculate 47 × 35.

Let me use the standard multiplication algorithm.

47 × 35

= 47 × (30 + 5)

= 47 × 30 + 47 × 5

= 1410 + 235

= 1645

Let me verify: 47 × 35

47 × 30 = 1410 ✓

47 × 5 = 235 ✓

1410 + 235 = 1645 ✓

</thinking>

The answer is 1645.

Beobachtungen:

Spontane Structure: Denkblöcke wurden nie trainiert, entstehen von selbst
Multiple Verification: Das Modell berechnet und überprüft mehrfach
Step Breakdown: Zerlegung in kleinere Schritte für Nachvollziehbarkeit

Wichtige Erkenntnisse

🧠 Emergenz ist real

Chain-of-Thought Reasoning emergiert spontan aus RL, ohne dass Beispiele gezeigt werden müssen.

💡 RL > SFT für Reasoning

Reinforcement Learning ist effizienter für Reasoning als Supervised Fine-Tuning mit Exemplaren.

⚙️ GRPO Effizienz

Gruppe-basierte Normalisierung ist stabiler und speichereffizienter als Critic-Networks.

📊 Verifizierbare Rewards

Rule-basierte Rewards (richtig/falsch, läuft/crasht) sind praktisch und skalierbar.

🚀 Paradigmenwechsel

Test-Time Compute (mehr Thinking) kann ebenso wichtig sein wie Modellgröße. Neue Skalierungsachse.

🎯 Praktische Impact

AIME ging von 15.6% → 71.0%. Dies ist ein Beispiel für Scale-über-Compute statt Scale-über-Größe.

Cognitive Behaviors: Warum lernen manche Modelle schneller?

Forschung zeigt: Modelle mit höherer „Exploration Tendency" lernen unter RL +40% schneller. Vier identifizierte Cognitive Behaviors sind entscheidend:

🔍

1. Exploration

Diverse Lösungsansätze versuchen statt früher Konvergenz. Modelle mit höherer Exploration finden bessere Strategien und lernen schneller unter RL.

✓

2. Verification

Intermediate Steps selbst prüfen. Verification korreliert mit +35% Final Performance — Modelle, die Zwischenschritte validieren, machen weniger Fehler.

♻️

3. Refinement

Basierend auf Feedback iterativ verbessern. Refinement-Behavior ermöglicht schnellere Anpassung an neue Reward-Signale während des Trainings.

🎯

4. Adaptation

Strategie für verschiedene Task-Types anpassen. Kritisch für Generalisierung across domains — verhindert Over-Specialization auf spezifische Task-Typen.

Paper: arxiv:2503.01307 (März 2025)
Key Finding: Diese Behaviors sind emergent — sie entstehen während des Trainings und sind nicht explizit programmiert. Modelle mit starker Exploration + Verification Tendency profitieren am meisten von RL-basierten Reasoning-Optimierungen.