Die RLHF Pipeline: 3 Phasen

RLHF ist ein dreistufiger Prozess, der ein vortrainiertes Sprachmodell schrittweise in ein hilfreches, harmloses und ehrliches System umwandelt.

1Supervised Fine-Tuning (SFT)

Eingabe: Vortrainiertes Modell
Daten: ~100K hochwertige Demonstrations-Beispiele
Dauer: ~2-4 Wochen

Das Modell lernt, Anweisungen zu folgen durch Beispiele guter Antworten. Dies bildet die Grundlage für späteren RL.

Stage 2: Reward Model

2Reward Model (RM)

Eingabe: SFT Modell
Daten: ~50K-100K menschliche Präferenz-Paare
Dauer: ~2-3 Wochen

Ein separates Modell wird trainiert, um die Qualität von Antworten vorherzusagen. Gibt Scores für (Prompt, Response)-Paare.

3PPO Optimization

Eingabe: SFT Modell + RM
Daten: Generierte Responses + RM-Scores
Dauer: ~2-4 Wochen

Das Modell wird mit RL optimiert, um höhere RM-Scores zu erreichen, während es der Ursprungsversion treu bleibt.

💡 Wichtige Erkenntnis: Neuere Forschung (DeepSeek R1) zeigt, dass SFT nicht streng notwendig ist – Reasoning kann direkt aus RL entstehen. DeepSeek trainierte das Basismodell direkt mit RL und erreichte dabei 71% auf AIME (von 15.6% ohne RL).

Reward Model: Präferenzen lernen

Das Reward Model ist das Herzstück von RLHF. Es ist ein trainiertes neuronales Netzwerk, das lernt, menschliche Präferenzen vorherzusagen.

Fig. 1 | Wie das Reward Model Antworten bewertet. ORM: Ein Score am Ende. PRM: Scores für jeden Schritt.

Outcome Reward (ORM)

  • ✅ Einfacher zu trainieren
  • ✅ Ein Reward-Signal pro Response
  • ❌ Schwaches Credit Assignment für lange Reasoning-Ketten
  • ❌ Kann auch falsche Wege belohnen, wenn Endergebnis korrekt

Process Reward (PRM)

  • ✅ Bessere Performance bei mathematischem Reasoning
  • ✅ Scores für JEDEN Schritt
  • ✅ Starker Credit Assignment
  • ❌ Schwer zu skalieren (jeder Schritt muss annotiert werden)
Reward Model Eingabe/Ausgabe:
Input: (prompt, response)
Output: r(prompt, response) ∈ ℝ (scalar reward)

Trainiert mit: Vergleichsdaten (Response A > Response B für Prompt X)

PPO: Policy Optimization mit KL-Constraint

PPO (Proximal Policy Optimization) ist der Kernalgorithmus von RLHF. Es optimiert das Modell basierend auf RM-Scores, während es der ursprünglichen Version treu bleibt.

PPO Loss Function:
L_PPO(θ) = E[r(x, y) - β · KL(π_θ || π_ref)]

Wobei:
• r(x, y) = Reward vom Reward Model
• β = KL-Penalty-Stärke (kontrolliert Trade-off)
• π_θ = Aktuelle Policy (Modell)
• π_ref = Referenz-Policy (ursprüngliches Modell)

β zu klein: Modell maximiert Rewards, aber verliert Wissen
β zu groß: Zu wenig Reward-Signal, minimale Verhaltensänderung

Fig. 2 | PPO Trade-off: Reward-Scores vs. KL-Divergenz. Der β-Parameter kontrolliert den Kompromiss zwischen beiden.

Warum KL-Constraint?

Der KL-Term verhindert, dass das Modell zu weit vom Original abweicht:

Policy Gradients & Advantage Estimation

Die mathematische Grundlage von RLHF basiert auf Policy Gradients – einer Technik zum Optimieren von Modellen mit RL-Signals.

Policy Gradient Theorem:
∇_θ J(θ) ∝ E[∇_θ log π_θ(y|x) · A(x, y)]

A(x, y) = Vorteil (Advantage): Wie viel besser ist diese Action als der Durchschnitt?

Alternative: GRPO (Group Relative Policy Optimization)

DeepSeek R1 benutzt GRPO statt klassischen PPO – effizienter und stabiler:

GRPO Advantage:
A_i = (reward_i - mean(rewards)) / std(rewards)

Vorteil:
• Relativer Vorteil innerhalb einer Gruppe
• Keine separates Value-Network notwendig
• Stabileres Training
• G Outputs pro Prompt
🔍 Was ist der Unterschied? PPO braucht ein separates Critic-Netzwerk für Value-Estimation. GRPO berechnet Advantages nur relative zu den anderen Samples in der Batch – simpler und effizienter!

Real-World Impact: o1, o3, DeepSeek R1

RLHF hat zu revolutionären Durchbrüchen in modernen LLMs geführt:

Modell Release RLHF Technik AIME 2024/2025 SWE-Bench Besonderheit
GPT-4 März 2023 Standard RLHF 80.7% Baseline vor RL-Reasoning
o1 Sept 2024 RL für internes Reasoning 83.3% 51.7% Erstes Reasoning-Modell
o3 April 2025 Verbesserte RL 88.9% 69.1% Massive Verbesserungen
DeepSeek-R1 Jan 2025 Pure RL (GRPO, kein SFT) 71.0% Reasoning aus reinem RL!

DeepSeek R1 Breakthrough: RL statt SFT

Das revolutionäre Experiment: DeepSeek trainierte ein Basismodell direkt mit GRPO RL ohne SFT:

Vorher (ohne RL)

15.6%
AIME 2024 Performance

Nachher (mit pure RL)

71.0%
AIME 2024 Performance

Das Modell lernte zu reasoning durch RL rewards, nicht durch SFT Beispiele! Dies war eine fundamentale Erkenntnis: Reasoning-Fähigkeiten können direkt durch RL-Signale entstehen, wenn die Belohnungsfunktion richtig gestaltet ist (mathematische Korrektheit, Code-Ausführung, etc.).

Alternativen & Variationen

Direct Preference Optimization (DPO)

DPO ist eine modernere Alternative zu RLHF, die das separate Reward Model eliminiert:

DPO Loss:
L_DPO = -E[log σ(β log(π_θ(y_w|x)/π_ref(y_w|x)) - β log(π_θ(y_l|x)/π_ref(y_l|x)))]

• y_w = Bevorzugte Response
• y_l = Nicht-bevorzugte Response
• σ = Sigmoid-Funktion

RLHF Pipeline

  • ✅ Bewährte Methode
  • ✅ Gute Performance
  • ❌ 3 separate Trainings-Stufen
  • ❌ Separate RM braucht Ressourcen

DPO Alternative

  • ✅ Direktes Training ohne RM
  • ✅ Simpler und schneller
  • ✅ Weniger Speicher
  • ✅ Vergleichbare oder bessere Performance

Constitutional AI (Anthropic)

Anthropic's Ansatz: AI-generierte Feedback statt nur menschliche Labels.

Prozess:

Vorteil: Reduziert menschliche Annotations-Kosten erheblich, behält hohe Qualität!

Section 7: Key Insights

Kernerkenntnisse

1. RLHF ist Alignment, nicht Capability

RLHF macht das Modell sicherer und hilfreicher, aber schafft keine neuen Fähigkeiten – es lenkt bestehende Fähigkeiten um.

2. RL kann neue Capabilities schaffen (!)​

DeepSeek R1 widerlegt das: Reasoning-Fähigkeiten entstanden direkt aus RL, ohne SFT. Das Modell lernte zu denken durch Belohnungen.

3. Reward Design ist kritisch

Die Form der Belohnungsfunktion bestimmt, was das Modell lernt. Schlecht designte Rewards führen zu unerwünschtem Verhalten.

4. KL-Constraint ist essentiell

Der KL-Term verhindert, dass der RL-Prozess das Modell zerstört. Es ist das Sicherheitsnetz des ganzen Ansatzes.