Schritt 0 · Basis

Base Model (Pre-Trained)

Wir beginnen mit einem großen Language Model (z.B. GPT-3 175B), das auf massive Mengen Text vorgelernt wurde. Dieses Modell kann bereits gut Text generieren, aber es ist nicht speziell "aligned" mit Human-Präferenzen.

Status: Kann Text generieren, aber manchmal toxisch, faktisch falsch, oder unhilfreich
Phase 1 · Supervised Fine-Tuning (SFT)

SFT: Lernen von Demonstrations

Datensammler (Human Annotators) schreiben hochwertige Antworten auf hunderte von Prompts. Wir fine-tunen das Base Model auf diesen Demonstrations mit Standard Supervised Learning (Next Token Prediction).

Daten: ~10k-100k hochwertige Input-Output Paare
Ziel: Modell lernt, hilfreiche Antworten zu geben
Ergebnis: SFT-Modell, das bessere Qualität zeigt
Phase 2 · Reward Model Training

RM: Training eines Preference Classifiers

Für tausende Prompts lassen wir das SFT-Modell mehrere Antworten generieren. Human Annotatoren ranken diese (z.B. "Antwort A ist besser als Antwort B"). Ein separate Reward-Netzwerk lernt, diese Preferences zu predicten.

Input: Prompt + zwei Antworten (generiert vom SFT-Modell)
Output: Scalar Reward (höher = besser)
Kostenpunkt: 1.5-2× Kosten der SFT Phase
Phase 3 · Proximal Policy Optimization (PPO)

PPO: Reinforcement Learning Training

Mit dem trainierten Reward Model führen wir RL-Training durch. Das Modell generiert Antworten, erhält Rewards vom RM, und wird via Gradient Descent optimiert. Ein KL-Divergence Term verhindert, dass das Modell zu weit vom Original driftet.

Loss: L = r(x,y) - β·KL(π_θ || π_ref)
Batching: 512-2048 Prompts pro Update
Hyper-tuning: β (KL Koeffizient) ist kritisch
Ergebnis · Aligned Model

Die finale Antwort

Nach allen drei Phasen haben wir ein Modell, das:

  • Hilfreicher ist (SFT lernte Good-Format)
  • Ehrlicher ist (RM bestraft Halluzinationen)
  • Sicherer ist (RM bestraft toxische Inhalte)
  • Instruktions-folgsam ist (alles oben)

Schlüssel-Erkenntnisse zur RLHF Pipeline

1
Drei Phasen sind nicht optional: Jede Phase dient einem Zweck. SFT zeigt dem Modell das Format. RM trainiert "Geschmacks-Klassifizierung". PPO optimiert für Rewards. Man kann keine Phasen weglassen.
2
Reward Model Qualität ist kritisch: Wenn das RM trainiert ist auf schlechte Preferences-Daten, wird PPO das Modell in die falsche Richtung optimieren. Ein schlechter RM ist schlimmer als kein RM.
3
KL-Divergence Tuning: Der β Parameter ist entscheidend. Zu hoch: Modell ändert sich nicht (PPO wird nutzlos). Zu niedrig: Modell divergiert zu stark vom Original (Qualität zerfällt). Typisch: β=0.01-0.1.
4
Kosten sind enorm: RLHF-Training für große Modelle benötigt hunderte bis tausende von annotated Preference Pairs. OpenAI & Anthropic beschäftigen Hunderte von Annotatoren. Dies ist ein massive Engineering-Investment.
5
Neuere Alternativen existieren: DPO (Direct Preference Optimization) macht Reward-Model-Training überflüssig. IPO, KPO sind weitere Simplifikationen. Aber für State-of-Art braucht man immer noch RLHF.
6
Alignment ist nie "fertig": Mit neuen jailbreak-Techniken erscheinen neue Safety-Probleme. RLHF-Modelle brauchen kontinuierliche Updates. Das ist ein ongoing Process.