Wie Reinforcement Learning from Human Feedback LLMs mit menschlichen Werten ausrichtet – von SFT über Reward Models zu PPO
RLHF ist ein dreistufiger Prozess, der ein vortrainiertes Sprachmodell schrittweise in ein hilfreches, harmloses und ehrliches System umwandelt.
Das Modell lernt, Anweisungen zu folgen durch Beispiele guter Antworten. Dies bildet die Grundlage für späteren RL.
Ein separates Modell wird trainiert, um die Qualität von Antworten vorherzusagen. Gibt Scores für (Prompt, Response)-Paare.
Das Modell wird mit RL optimiert, um höhere RM-Scores zu erreichen, während es der Ursprungsversion treu bleibt.
Das Reward Model ist das Herzstück von RLHF. Es ist ein trainiertes neuronales Netzwerk, das lernt, menschliche Präferenzen vorherzusagen.
PPO (Proximal Policy Optimization) ist der Kernalgorithmus von RLHF. Es optimiert das Modell basierend auf RM-Scores, während es der ursprünglichen Version treu bleibt.
β zu klein: Modell maximiert Rewards, aber verliert Wissen
β zu groß: Zu wenig Reward-Signal, minimale Verhaltensänderung
Der KL-Term verhindert, dass das Modell zu weit vom Original abweicht:
Die mathematische Grundlage von RLHF basiert auf Policy Gradients – einer Technik zum Optimieren von Modellen mit RL-Signals.
DeepSeek R1 benutzt GRPO statt klassischen PPO – effizienter und stabiler:
RLHF hat zu revolutionären Durchbrüchen in modernen LLMs geführt:
| Modell | Release | RLHF Technik | AIME 2024/2025 | SWE-Bench | Besonderheit |
|---|---|---|---|---|---|
| GPT-4 | März 2023 | Standard RLHF | 80.7% | — | Baseline vor RL-Reasoning |
| o1 | Sept 2024 | RL für internes Reasoning | 83.3% | 51.7% | Erstes Reasoning-Modell |
| o3 | April 2025 | Verbesserte RL | 88.9% | 69.1% | Massive Verbesserungen |
| DeepSeek-R1 | Jan 2025 | Pure RL (GRPO, kein SFT) | 71.0% | — | Reasoning aus reinem RL! |
Das revolutionäre Experiment: DeepSeek trainierte ein Basismodell direkt mit GRPO RL ohne SFT:
Das Modell lernte zu reasoning durch RL rewards, nicht durch SFT Beispiele! Dies war eine fundamentale Erkenntnis: Reasoning-Fähigkeiten können direkt durch RL-Signale entstehen, wenn die Belohnungsfunktion richtig gestaltet ist (mathematische Korrektheit, Code-Ausführung, etc.).
DPO ist eine modernere Alternative zu RLHF, die das separate Reward Model eliminiert:
Anthropic's Ansatz: AI-generierte Feedback statt nur menschliche Labels.
Prozess:
Vorteil: Reduziert menschliche Annotations-Kosten erheblich, behält hohe Qualität!
RLHF macht das Modell sicherer und hilfreicher, aber schafft keine neuen Fähigkeiten – es lenkt bestehende Fähigkeiten um.
DeepSeek R1 widerlegt das: Reasoning-Fähigkeiten entstanden direkt aus RL, ohne SFT. Das Modell lernte zu denken durch Belohnungen.
Die Form der Belohnungsfunktion bestimmt, was das Modell lernt. Schlecht designte Rewards führen zu unerwünschtem Verhalten.
Der KL-Term verhindert, dass der RL-Prozess das Modell zerstört. Es ist das Sicherheitsnetz des ganzen Ansatzes.