Chinchilla Scaling Laws

Das Chinchilla-Rezept für Skalierung

Die Chinchilla Scaling Laws (DeepMind 2022) zeigen einen überraschenden Befund: Historisch wurden LLMs untertrainiert – mit viel zu wenigen Trainingsdaten für die Modellgröße.

Die optimale Regel lautet: Compute-Budget sollte gleichmäßig auf Modellgröße und Daten aufgeteilt werden. Konkret: Für ein gegebenes Compute-Budget C sollten Sie:

Parameter N ≈ C / 20D – Das Modell nutzt etwa 1/20 des Compute-Budgets
Tokens D ≈ 20N – Etwa 20 Trainingsdaten pro Parameter (das "20er-Verhältnis")

Optimales Verhältnis: D ≈ 20N

Compute C ≈ 6ND (ungefähr)
→ N = sqrt(C / 120), D = 20N = 20 × sqrt(C / 120)

Die wichtigste Erkenntnis: Ein 10× kleineres Modell mit 10× mehr Daten erreicht bessere Qualität bei gleicher Trainingszeit, als ein 10× größeres Modell weniger trainiert.

Abb. 1 | Chinchilla Scaling Laws: Iso-Loss Kurven in Log-Log Space. Grüne diagonale Linien zeigen Punkte gleicher Trainingszeit. Der rote Punkt markiert das Optimum für das aktuelle Compute-Budget. Das Verhältnis Parameter:Tokens ≈ 1:20.

Compute-Budget (FLOPs): 10^23 FLOPs

Szenario:

Skalierungsszenarien im Vergleich

Bei gleicher Trainingszeit gibt es verschiedene Wege, Compute zu nutzen:

Abb. 2 | Vier Szenarien: (1) Chinchilla-Optimal = bestes Verhältnis 1:20. (2) Parameter-Heavy = 10× zu viele Parameter, weniger Daten. (3) Data-Heavy = 10× zu viele Daten, kleinere Modelle. (4) Historisch (GPT-3 Stil) = untertrainiert mit 300:1 Verhältnis.

Optimale vs. Suboptimale Allokation

Chinchilla (Optimal)

N:D = 1:20

GPT-3 Stil

N:D = 1:300 ❌

Parameter-Heavy

N:D = 1:2 ❌

Data-Heavy

N:D = 1:200 ⚠️

Praktische Auswirkungen

Chinchilla vs. GPT-3 derselben Größe:
Ein 70B Chinchilla-Modell mit 1.4T Tokens schlägt ein 70B GPT-3-ähnliches Modell mit nur 300B Tokens deutlich. Der Grund: Chinchilla trainiert auf 1.4T Tokens statt 300B, lernt also "mehr".

Skalierungskurve:
Die Testfehlerkurve sinkt als Power-Law: Fehler ∝ (N × D)^(-α) wobei α ≈ 0.07. Das bedeutet: Verdoppelung des Compute senkt den Fehler um konstante Faktor.

Moderne Modelle:
Llama 3 70B (nach Chinchilla trainiert) zeigt diesen Vorteil: Bestes Verhältnis Parameter zu Tokens führt zu überlegener Qualität. DeepSeek und andere moderne Modelle folgen ähnlichen Prinzipien.

Abb. 3 | Validation Loss über Trainings-Steps: Chinchilla (1:20 optimal) convergiert schneller und zu besserer Qualität als GPT-3-Stil (1:300 untertrainiert) oder Parameter-Heavy (1:2).

Wichtige Erkenntnisse

🎯 Das 20er-Verhältnis

Optimal ist etwa 20 Trainingsdaten pro Parameter. Dies ist universeller als früher angenommen.

⚖️ Gleichmäßige Skalierung

Compute sollte zu gleichen Teilen zwischen Parametern und Tokens aufgeteilt werden.

🔄 Untertraining ist teuer

Zu viele Parameter mit zu wenig Daten führt zu schlechterer Endqualität trotz ähnlicher Compute.

📊 Power-Law Skalierung

Fehler sinkt als Potenzgesetz mit Compute. Vorhersagbar und skalierbar über Größenordnungen.

💰 Praktisches Impact

Kleinere, gut trainierte Modelle schlagen große, untertrainierte Modelle. Compute ist teuer.

🧠 Emergente Fähigkeiten

Größere Modelle lernen neue Fähigkeiten, aber besseres Training verstärkt den Effekt.