Die Chinchilla Scaling Laws (DeepMind 2022) zeigen einen überraschenden Befund: Historisch wurden LLMs untertrainiert – mit viel zu wenigen Trainingsdaten für die Modellgröße.
Die optimale Regel lautet: Compute-Budget sollte gleichmäßig auf Modellgröße und Daten aufgeteilt werden. Konkret: Für ein gegebenes Compute-Budget C sollten Sie:
- Parameter N ≈ C / 20D – Das Modell nutzt etwa 1/20 des Compute-Budgets
- Tokens D ≈ 20N – Etwa 20 Trainingsdaten pro Parameter (das "20er-Verhältnis")