RLHF Training – LLM Explorer

Die RLHF Pipeline: 3 Phasen

RLHF ist ein dreistufiger Prozess, der ein vortrainiertes Sprachmodell schrittweise in ein hilfreches, harmloses und ehrliches System umwandelt.

1Supervised Fine-Tuning (SFT)

Eingabe: Vortrainiertes Modell

Daten: ~100K hochwertige Demonstrations-Beispiele

Dauer: ~2-4 Wochen

Das Modell lernt, Anweisungen zu folgen durch Beispiele guter Antworten. Dies bildet die Grundlage für späteren RL.

Stage 2: Reward Model

2Reward Model (RM)

Eingabe: SFT Modell

Daten: ~50K-100K menschliche Präferenz-Paare

Dauer: ~2-3 Wochen

Ein separates Modell wird trainiert, um die Qualität von Antworten vorherzusagen. Gibt Scores für (Prompt, Response)-Paare.

3PPO Optimization

Eingabe: SFT Modell + RM

Daten: Generierte Responses + RM-Scores

Dauer: ~2-4 Wochen

Das Modell wird mit RL optimiert, um höhere RM-Scores zu erreichen, während es der Ursprungsversion treu bleibt.

💡 Wichtige Erkenntnis: Neuere Forschung (DeepSeek R1) zeigt, dass SFT nicht streng notwendig ist – Reasoning kann direkt aus RL entstehen. DeepSeek trainierte das Basismodell direkt mit RL und erreichte dabei 71% auf AIME (von 15.6% ohne RL).

Reward Model: Präferenzen lernen

Das Reward Model ist das Herzstück von RLHF. Es ist ein trainiertes neuronales Netzwerk, das lernt, menschliche Präferenzen vorherzusagen.

Reward Model Typ

Fig. 1 | Wie das Reward Model Antworten bewertet. ORM: Ein Score am Ende. PRM: Scores für jeden Schritt.

Outcome Reward (ORM)

✅ Einfacher zu trainieren
✅ Ein Reward-Signal pro Response
❌ Schwaches Credit Assignment für lange Reasoning-Ketten
❌ Kann auch falsche Wege belohnen, wenn Endergebnis korrekt

Process Reward (PRM)

✅ Bessere Performance bei mathematischem Reasoning
✅ Scores für JEDEN Schritt
✅ Starker Credit Assignment
❌ Schwer zu skalieren (jeder Schritt muss annotiert werden)

Reward Model Eingabe/Ausgabe:

Input: (prompt, response)
Output: r(prompt, response) ∈ ℝ (scalar reward)

Trainiert mit: Vergleichsdaten (Response A > Response B für Prompt X)

PPO: Policy Optimization mit KL-Constraint

PPO (Proximal Policy Optimization) ist der Kernalgorithmus von RLHF. Es optimiert das Modell basierend auf RM-Scores, während es der ursprünglichen Version treu bleibt.

PPO Loss Function:

L_PPO(θ) = E[r(x, y) - β · KL(π_θ || π_ref)]

Wobei:
• r(x, y) = Reward vom Reward Model
• β = KL-Penalty-Stärke (kontrolliert Trade-off)
• π_θ = Aktuelle Policy (Modell)
• π_ref = Referenz-Policy (ursprüngliches Modell)

KL-Penalty Stärke (β) 0.15

β zu klein: Modell maximiert Rewards, aber verliert Wissen
β zu groß: Zu wenig Reward-Signal, minimale Verhaltensänderung

Fig. 2 | PPO Trade-off: Reward-Scores vs. KL-Divergenz. Der β-Parameter kontrolliert den Kompromiss zwischen beiden.

Warum KL-Constraint?

Der KL-Term verhindert, dass das Modell zu weit vom Original abweicht:

Ohne KL: Modell könnte Reward hacken (merkwürdige Text-Sequenzen), würde Wissen vergessen, könnte unsicher werden
Mit KL: Modell bleibt nahe beim Original, behält Wissen, bleibt sicher
β-Parameter: Kontrolliert die Balance (empirisch tuned, typisch 0.1-0.5)

Policy Gradients & Advantage Estimation

Die mathematische Grundlage von RLHF basiert auf Policy Gradients – einer Technik zum Optimieren von Modellen mit RL-Signals.

Policy Gradient Theorem:

∇_θ J(θ) ∝ E[∇_θ log π_θ(y|x) · A(x, y)]

A(x, y) = Vorteil (Advantage): Wie viel besser ist diese Action als der Durchschnitt?

Alternative: GRPO (Group Relative Policy Optimization)

DeepSeek R1 benutzt GRPO statt klassischen PPO – effizienter und stabiler:

GRPO Advantage:

A_i = (reward_i - mean(rewards)) / std(rewards)

Vorteil:
• Relativer Vorteil innerhalb einer Gruppe
• Keine separates Value-Network notwendig
• Stabileres Training
• G Outputs pro Prompt

🔍 Was ist der Unterschied? PPO braucht ein separates Critic-Netzwerk für Value-Estimation. GRPO berechnet Advantages nur relative zu den anderen Samples in der Batch – simpler und effizienter!

Real-World Impact: o1, o3, DeepSeek R1

RLHF hat zu revolutionären Durchbrüchen in modernen LLMs geführt:

Modell	Release	RLHF Technik	AIME 2024/2025	SWE-Bench	Besonderheit
GPT-4	März 2023	Standard RLHF	80.7%	—	Baseline vor RL-Reasoning
o1	Sept 2024	RL für internes Reasoning	83.3%	51.7%	Erstes Reasoning-Modell
o3	April 2025	Verbesserte RL	88.9%	69.1%	Massive Verbesserungen
DeepSeek-R1	Jan 2025	Pure RL (GRPO, kein SFT)	71.0%	—	Reasoning aus reinem RL!

DeepSeek R1 Breakthrough: RL statt SFT

Das revolutionäre Experiment: DeepSeek trainierte ein Basismodell direkt mit GRPO RL ohne SFT:

Vorher (ohne RL)

15.6%

AIME 2024 Performance

Nachher (mit pure RL)

71.0%

AIME 2024 Performance

Das Modell lernte zu reasoning durch RL rewards, nicht durch SFT Beispiele! Dies war eine fundamentale Erkenntnis: Reasoning-Fähigkeiten können direkt durch RL-Signale entstehen, wenn die Belohnungsfunktion richtig gestaltet ist (mathematische Korrektheit, Code-Ausführung, etc.).

Alternativen & Variationen

Direct Preference Optimization (DPO)

DPO ist eine modernere Alternative zu RLHF, die das separate Reward Model eliminiert:

DPO Loss:

L_DPO = -E[log σ(β log(π_θ(y_w|x)/π_ref(y_w|x)) - β log(π_θ(y_l|x)/π_ref(y_l|x)))]

• y_w = Bevorzugte Response
• y_l = Nicht-bevorzugte Response
• σ = Sigmoid-Funktion

RLHF Pipeline

✅ Bewährte Methode
✅ Gute Performance
❌ 3 separate Trainings-Stufen
❌ Separate RM braucht Ressourcen

DPO Alternative

✅ Direktes Training ohne RM
✅ Simpler und schneller
✅ Weniger Speicher
✅ Vergleichbare oder bessere Performance

Constitutional AI (Anthropic)

Anthropic's Ansatz: AI-generierte Feedback statt nur menschliche Labels.

Prozess:

Model generiert eine Antwort
Model selbst kritisiert die Antwort basierend auf Principles (Constitution)
Model überarbeitet die Antwort
RLHF wird auf die AI-generierten Preferences angewendet

Vorteil: Reduziert menschliche Annotations-Kosten erheblich, behält hohe Qualität!

Kernerkenntnisse

1. RLHF ist Alignment, nicht Capability

RLHF macht das Modell sicherer und hilfreicher, aber schafft keine neuen Fähigkeiten – es lenkt bestehende Fähigkeiten um.

2. RL kann neue Capabilities schaffen (!)

DeepSeek R1 widerlegt das: Reasoning-Fähigkeiten entstanden direkt aus RL, ohne SFT. Das Modell lernte zu denken durch Belohnungen.

3. Reward Design ist kritisch

Die Form der Belohnungsfunktion bestimmt, was das Modell lernt. Schlecht designte Rewards führen zu unerwünschtem Verhalten.

4. KL-Constraint ist essentiell

Der KL-Term verhindert, dass der RL-Prozess das Modell zerstört. Es ist das Sicherheitsnetz des ganzen Ansatzes.