RLHF Pipeline – LLM Explorer

Schritt 0 · Basis

Base Model (Pre-Trained)

Wir beginnen mit einem großen Language Model (z.B. GPT-3 175B), das auf massive Mengen Text vorgelernt wurde. Dieses Modell kann bereits gut Text generieren, aber es ist nicht speziell "aligned" mit Human-Präferenzen.

Status: Kann Text generieren, aber manchmal toxisch, faktisch falsch, oder unhilfreich

Phase 1 · Supervised Fine-Tuning (SFT)

SFT: Lernen von Demonstrations

Datensammler (Human Annotators) schreiben hochwertige Antworten auf hunderte von Prompts. Wir fine-tunen das Base Model auf diesen Demonstrations mit Standard Supervised Learning (Next Token Prediction).

Daten: ~10k-100k hochwertige Input-Output Paare
Ziel: Modell lernt, hilfreiche Antworten zu geben
Ergebnis: SFT-Modell, das bessere Qualität zeigt

Phase 2 · Reward Model Training

RM: Training eines Preference Classifiers

Für tausende Prompts lassen wir das SFT-Modell mehrere Antworten generieren. Human Annotatoren ranken diese (z.B. "Antwort A ist besser als Antwort B"). Ein separate Reward-Netzwerk lernt, diese Preferences zu predicten.

Input: Prompt + zwei Antworten (generiert vom SFT-Modell)
Output: Scalar Reward (höher = besser)
Kostenpunkt: 1.5-2× Kosten der SFT Phase

Phase 3 · Proximal Policy Optimization (PPO)

PPO: Reinforcement Learning Training

Mit dem trainierten Reward Model führen wir RL-Training durch. Das Modell generiert Antworten, erhält Rewards vom RM, und wird via Gradient Descent optimiert. Ein KL-Divergence Term verhindert, dass das Modell zu weit vom Original driftet.

Loss: L = r(x,y) - β·KL(π_θ || π_ref)
Batching: 512-2048 Prompts pro Update
Hyper-tuning: β (KL Koeffizient) ist kritisch

Ergebnis · Aligned Model

Die finale Antwort

Nach allen drei Phasen haben wir ein Modell, das:

Hilfreicher ist (SFT lernte Good-Format)
Ehrlicher ist (RM bestraft Halluzinationen)
Sicherer ist (RM bestraft toxische Inhalte)
Instruktions-folgsam ist (alles oben)

RLHF Pipeline: Ein umfassender Überblick

Base Model (Pre-Trained)

SFT: Lernen von Demonstrations

RM: Training eines Preference Classifiers

PPO: Reinforcement Learning Training

Die finale Antwort

Schlüssel-Erkenntnisse zur RLHF Pipeline