Drei Ansätze zur Verbesserung von Modell-Performance durch zusätzliche Rechenzeit während der Inferenz: Parallel, Sequential, und Internal (o1/o3-style)
| Kriterium | Parallel (Best-of-N) | Sequential (Iterative) | Internal (o1/o3) |
|---|---|---|---|
| Latency (ms) | 200-500 | 800-1500 | 2000-5000 |
| Throughput (req/s) | 2-5 | 0.7-1.5 | 0.2-0.5 |
| Accuracy (Math) | 65-75% | 78-88% | 85-94% |
| Memory Required | N × Base Model High | 1.2 × Base Model Moderate | 1.1 × Base Model Low |
| Implementation | Simple | Moderate | Complex |
| Optimal For | Ensemble + Voting | Step-by-Step Refinement | Complex Reasoning |
| Beispiel-Modelle | Llama 2, Mistral, Claude | Llama 3.1, GPT-4 | o1, o3, DeepSeek R1 |
| Parallelisierbar? | Ja, vollständig | Teilweise (Steps) | Ja (Ensemble) |
| Cost-Effizienz | Gut für Latency-SLA | Gut für Balance | Best für Quality |
| Fallback bei Fehler | Andere Outputs | Restarting mit anderen Prompts | Intrinsische Self-Correction |