Genauigkeit nach Test-Time Compute Strategie
Parallel (Best-of-N, Majority Vote)
Sequential (Iterative Refinement)
Internal (o1/o3 Hidden Thinking)
Fig. 1 | Accuracy-Vergleich der drei Test-Time Scaling Strategien über mathematische Benchmark (AIME 2024). Internal (o3) zeigt beste Performance, aber auch höchste Latenz. Parallel ist schneller, Sequential bietet Balance.
Latency vs. Quality Trade-off
Parallel: Schnell, gute Quality
Sequential: Mittel, sehr gute Quality
Internal: Langsam, beste Quality
Fig. 2 | Latenz vs. Accuracy-Pareto-Frontier. Internal dominiert Quality, opfert aber Latenz. Parallel maximiert Durchsatz. Sequential equilibriert.
Kriterium Parallel (Best-of-N) Sequential (Iterative) Internal (o1/o3)
Latency (ms) 200-500 800-1500 2000-5000
Throughput (req/s) 2-5 0.7-1.5 0.2-0.5
Accuracy (Math) 65-75% 78-88% 85-94%
Memory Required N × Base Model High 1.2 × Base Model Moderate 1.1 × Base Model Low
Implementation Simple Moderate Complex
Optimal For Ensemble + Voting Step-by-Step Refinement Complex Reasoning
Beispiel-Modelle Llama 2, Mistral, Claude Llama 3.1, GPT-4 o1, o3, DeepSeek R1
Parallelisierbar? Ja, vollständig Teilweise (Steps) Ja (Ensemble)
Cost-Effizienz Gut für Latency-SLA Gut für Balance Best für Quality
Fallback bei Fehler Andere Outputs Restarting mit anderen Prompts Intrinsische Self-Correction

Die 3 Strategien im Detail

🔀 Parallel: Best-of-N & Majority Voting
Generiere N unabhängige Outputs gleichzeitig. Beste Methode: Top-1 (höchste Log-Likelihood), Second: Majority Voting (wenn mehrere Outputs ähnlich).

Formel: y* = argmax P(y | x) über N Samples
Vorteil: Perfekt parallelisierbar (N GPUs), einfach zu implementieren, schnell.
Nachteil: Braucht N × Memory, keine intrinsische Selbstkorrektur.
Wann nutzen: Große Batches, verfügbare GPU-Ressourcen, Latency-sensibel.
🔄 Sequential: Iterative Refinement & CoT
Generiere Output iterativ. Erster Pass: Chain-of-Thought. Zweiter Pass: Self-Critique (feedback on reasoning). Dritter Pass: Final Answer.

Formel: y1 → critique(y1) → y2 → ... → y_final
Vorteil: Bessere Reasoning-Quality, weniger Memory als Parallel, Fehler werden oft selbst korrigiert.
Nachteil: Langsamer (iterative), braucht mehrere Forward-Passes sequenziell.
Wann nutzen: Medium-complexity Tasks, Balance zwischen Speed und Quality erwünscht.
🧠 Internal: o1/o3 Hidden Thinking
Modell hat internale "Thinking Tokens" (verborgen von Nutzer), die vor dem finalen Output generiert werden. Trained mit RL auf verifizierbare Rewards.

Formel: hidden_thoughts = model(x, internal=True); y = model(x, hidden_thoughts)
Vorteil: Beste Quality, intrinsische Self-Correction, Nutzer sieht keine Fehlversuche.
Nachteil: Proprietär (o3), teuer, benötigt spezialisierte Training mit RL.
Wann nutzen: Sehr komplexe Aufgaben (Mathe, Code), Quality > Speed-Anforderungen.
Test-Time Compute = 14× Model-Parameter
Snell et al. (2024): Optimale Allokation von Test-Time Compute kann einen 14× Größer-Modell-Vorteil kompensieren. Mehr Denkzeit schlägt größeres Modell.
📊
Parallel ist schnell, Sequential ist smarter
Parallel-Strategie: 200-500ms Latency aber braucht N GPUs. Sequential: 800-1500ms aber nur 1.2× Memory. Wahl hängt von Infrastruktur ab.
🎯
Internal (o1/o3) dominiert Quality
o3 erreicht 88.9% auf AIME 2025 (vs. o1: 92.3%, vs. Standard: <5%). Aber 2-5s Latency macht es für viele Anwendungen unpraktisch.
🔄
Self-Critique funktioniert empirisch
Sequential mit Self-Critique erreicht 80-88% Accuracy. Das Modell kann seine eigenen Fehler oft erkennen und korrigieren (wenn große genug).
💡
Majority Voting braucht ~5-10 Samples
Bei N=5: ~10% Accuracy-Boost. Bei N=10: ~13% Boost. Plateau nach ~15 Samples (Stochastizität limitiert). CoV (Coefficient of Variation) zwischen Outputs zeigt Unsicherheit.
⚙️
RL-Training macht Internal möglich
GRPO Algorithm: RL trainiert das Modell, selbst zu entscheiden wie viel zu "denken". DeepSeek R1-Zero ohne SFT: nur Rule-based Rewards + RL = komplexes Reasoning emergent.