Scrollen Sie durch die drei Phasen von Reinforcement Learning from Human Feedback: SFT, Reward Model Training, und PPO Optimization
Wir beginnen mit einem großen Language Model (z.B. GPT-3 175B), das auf massive Mengen Text vorgelernt wurde. Dieses Modell kann bereits gut Text generieren, aber es ist nicht speziell "aligned" mit Human-Präferenzen.
Datensammler (Human Annotators) schreiben hochwertige Antworten auf hunderte von Prompts. Wir fine-tunen das Base Model auf diesen Demonstrations mit Standard Supervised Learning (Next Token Prediction).
Für tausende Prompts lassen wir das SFT-Modell mehrere Antworten generieren. Human Annotatoren ranken diese (z.B. "Antwort A ist besser als Antwort B"). Ein separate Reward-Netzwerk lernt, diese Preferences zu predicten.
Mit dem trainierten Reward Model führen wir RL-Training durch. Das Modell generiert Antworten, erhält Rewards vom RM, und wird via Gradient Descent optimiert. Ein KL-Divergence Term verhindert, dass das Modell zu weit vom Original driftet.
Nach allen drei Phasen haben wir ein Modell, das: