Test-Time Scaling Strategien

Kriterium	Parallel (Best-of-N)	Sequential (Iterative)	Internal (o1/o3)
Latency (ms)	200-500	800-1500	2000-5000
Throughput (req/s)	2-5	0.7-1.5	0.2-0.5
Accuracy (Math)	65-75%	78-88%	85-94%
Memory Required	N × Base Model High	1.2 × Base Model Moderate	1.1 × Base Model Low
Implementation	Simple	Moderate	Complex
Optimal For	Ensemble + Voting	Step-by-Step Refinement	Complex Reasoning
Beispiel-Modelle	Llama 2, Mistral, Claude	Llama 3.1, GPT-4	o1, o3, DeepSeek R1
Parallelisierbar?	Ja, vollständig	Teilweise (Steps)	Ja (Ensemble)
Cost-Effizienz	Gut für Latency-SLA	Gut für Balance	Best für Quality
Fallback bei Fehler	Andere Outputs	Restarting mit anderen Prompts	Intrinsische Self-Correction

Die 3 Strategien im Detail

🔀 Parallel: Best-of-N & Majority Voting

Generiere N unabhängige Outputs gleichzeitig. Beste Methode: Top-1 (höchste Log-Likelihood), Second: Majority Voting (wenn mehrere Outputs ähnlich).

Formel: y* = argmax P(y | x) über N Samples
Vorteil: Perfekt parallelisierbar (N GPUs), einfach zu implementieren, schnell.
Nachteil: Braucht N × Memory, keine intrinsische Selbstkorrektur.
Wann nutzen: Große Batches, verfügbare GPU-Ressourcen, Latency-sensibel.

🔄 Sequential: Iterative Refinement & CoT

Generiere Output iterativ. Erster Pass: Chain-of-Thought. Zweiter Pass: Self-Critique (feedback on reasoning). Dritter Pass: Final Answer.

Formel: y1 → critique(y1) → y2 → ... → y_final
Vorteil: Bessere Reasoning-Quality, weniger Memory als Parallel, Fehler werden oft selbst korrigiert.
Nachteil: Langsamer (iterative), braucht mehrere Forward-Passes sequenziell.
Wann nutzen: Medium-complexity Tasks, Balance zwischen Speed und Quality erwünscht.

🧠 Internal: o1/o3 Hidden Thinking

Modell hat internale "Thinking Tokens" (verborgen von Nutzer), die vor dem finalen Output generiert werden. Trained mit RL auf verifizierbare Rewards.

Formel: hidden_thoughts = model(x, internal=True); y = model(x, hidden_thoughts)
Vorteil: Beste Quality, intrinsische Self-Correction, Nutzer sieht keine Fehlversuche.
Nachteil: Proprietär (o3), teuer, benötigt spezialisierte Training mit RL.
Wann nutzen: Sehr komplexe Aufgaben (Mathe, Code), Quality > Speed-Anforderungen.

⚡

Test-Time Compute = 14× Model-Parameter

Snell et al. (2024): Optimale Allokation von Test-Time Compute kann einen 14× Größer-Modell-Vorteil kompensieren. Mehr Denkzeit schlägt größeres Modell.

📊

Parallel ist schnell, Sequential ist smarter

Parallel-Strategie: 200-500ms Latency aber braucht N GPUs. Sequential: 800-1500ms aber nur 1.2× Memory. Wahl hängt von Infrastruktur ab.

🎯

Internal (o1/o3) dominiert Quality

o3 erreicht 88.9% auf AIME 2025 (vs. o1: 92.3%, vs. Standard: <5%). Aber 2-5s Latency macht es für viele Anwendungen unpraktisch.

🔄

Self-Critique funktioniert empirisch

Sequential mit Self-Critique erreicht 80-88% Accuracy. Das Modell kann seine eigenen Fehler oft erkennen und korrigieren (wenn große genug).

💡

Majority Voting braucht ~5-10 Samples

Bei N=5: ~10% Accuracy-Boost. Bei N=10: ~13% Boost. Plateau nach ~15 Samples (Stochastizität limitiert). CoV (Coefficient of Variation) zwischen Outputs zeigt Unsicherheit.

⚙️

RL-Training macht Internal möglich

GRPO Algorithm: RL trainiert das Modell, selbst zu entscheiden wie viel zu "denken". DeepSeek R1-Zero ohne SFT: nur Rule-based Rewards + RL = komplexes Reasoning emergent.