Wie Sprachmodelle durch längeres Denken und mehr Compute bessere Ergebnisse erzielen
Traditionell skalieren wir Modelle entlang zwei Dimensionen: Modellgröße (mehr Parameter) und Daten (mehr Trainings-Tokens).
Aber es gibt eine dritte Dimension, die oft übersehen wird: Test-Time Compute - wie viel Rechenleistung wir bei der Inference (nachdem das Modell fertig trainiert ist) investieren.
Dies kann durch verschiedene Strategien geschehen: das Modell mehrmals denken lassen (Best-of-N), iterative Verfeinerung (Chain-of-Thought), oder interne Reasoning (o1-style).
Überraschender Fund (Snell et al., 2024): Mit optimaler Test-Time-Allokation kann ein 7B Modell bessere Ergebnisse erzielen als ein 70B Modell ohne diese Optimierung!
Verschiebe den Slider um zu sehen, wie die optimale Modellgröße sich mit dem Budget ändert.
Bei konstanter Modellgröße erhalten wir bessere Ergebnisse, wenn wir mehr Zeit/Compute bei der Inference investieren:
Die Accuracy als Funktion von Test-Time Compute folgt ungefähr einer Power Law:
Test-Time Scaling ist besonders wertvoll wenn:
Es ist nicht sinnvoll wenn:
| Szenario | Beste Strategie | Kostenvergleich |
|---|---|---|
| Echtzeitanwendung (Chat) | Kleine Modelle, kein Test-Time Scaling | Gering, aber Qualität limitiert |
| Offline Batch-Processing | Best-of-N oder Sequential | Moderat, aber hohe Qualität |
| Kritische Aufgaben (Medizin, Recht) | Großes Modell + Verifizierung | Hoch, aber notwendig |
| Research/Entwicklung | o1-style (intern) | Höher, aber beste Qualität |
Frage: Wo liegen die Grenzen von Test-Time Scaling?
Die Power Law könnte irgendwann eine Sättigung erreichen - ein Punkt, wo mehr Compute nicht mehr hilft. Wo dieser Punkt liegt, ist noch unklar.
Prediction: Die nächste Grenzverschiebung in der AI wird nicht durch noch größere Modelle kommen, sondern durch intelligentere Test-Time-Algorithmen, die sinnvoll entscheiden, wann und wie lange ein Modell denken sollte.