Das neue Paradigma: Denken vor dem Antworten

OpenAI's o-Serie (o1 September 2024, o3 April 2025) repräsentiert einen Paradigmenwechsel in der LLM-Entwicklung. Diese Modelle generieren eine interne Chain-of-Thought, die dem Nutzer verborgen bleibt. Das Modell „denkt" vor dem Antworten, und die Qualität verbessert sich mit mehr Denkzeit.

50%
Abb. 1 | Normal (oben): Alle Token sichtbar. o1-Stil (unten): Denkvorgänge verborgen, nur Antwort sichtbar. Der Schieberegler steuert die interne Denkzeit.

Was ist „Hidden Reasoning"?

Fehlerkorrektur

Das Modell korrigiert Fehler intern, ohne dass der Nutzer inkonsistente Zwischenschritte sieht.

Mehrere Ansätze

Das Modell exploriert mehrere Lösungswege intern und wählt den besten aus.

Sicherheit

Thinking-Output kann ohne Sicherheitsbedenken gefiltert werden – nur finale Antwort wird gezeigt.

Section 2: Test-Time Compute Scaling

Test-Time Compute: Mehr Denken statt Größe

Ein Schlüssel-Insight aus der Forschung: Optimale Zuteilung von Test-Time Compute kann einen 14× Parameter-Vorteil kompensieren. Statt das Modell größer zu machen, kann man die Inferenzzeit erhöhen und das Modell „intensiver denken" lassen.

Abb. 2 | Test-Time Compute Scaling: Wie Denkzeit (sequenzielle Skalierung) die Qualität verbessert, ohne das Modell zu vergrößern. Drei Ansätze: Parallel (mehrere Outputs), Sequenziell (iterativ), Intern (o1-Stil).
Three Approaches to Test-Time Scaling
1. Parallel: Generate N outputs, select best
2. Sequential: Iterative refinement
3. Internal (o1): Model decides allocation

Benchmark-Ergebnisse: Der Performance-Sprung

Die o-Serie zeigt dramatische Verbesserungen auf schwierigen Reasoning-Benchmarks, die frühere Modelle nicht lösen konnten:

Abb. 3 | Performance-Vergleich: o3 zeigt beeindruckende Ergebnisse auf Frontier Math (25.2% vs <2% für frühere Modelle), AIME (88.9%) und SWE-Bench (69.1%).
Benchmark Beschreibung o3 Ergebnis Kontext
AIME 2025 American Inv. Math Exam 88.9% Olympiad-Level Mathematik
SWE-Bench Software Engineering 69.1% Real-world Code Changes
Frontier Math Forschungs-Mathematik 25.2% Vorher: <2% für alle Modelle

Explizites vs. Verstecktes CoT

Wie unterscheiden sich die beiden Ansätze in der Praxis?

Abb. 4 | Links: Explizites CoT zeigt alle Denkvorgänge, Fehler sind sichtbar. Rechts: o1-Stil versteckt Denken, zeigt nur saubere Antwort.

🔍 Explizites CoT

Prompting-Technik, Nutzer sieht alle Fehler und Umwege. Funktioniert mit größeren Modellen besser.

🧠 Hidden Reasoning

RL-trainiert, interne Fehlerkorrektur, sauberer Output. Paradigmenwechsel zu Test-Time Compute.

⚖️ Trade-off

Hidden: teurer Inference. Explizit: transparenter. Wahl hängt vom Use-Case ab.

Wie o1/o3 intern denkt: Der RL-Trainings-Loop

o1/o3 werden nicht durch Supervised Fine-Tuning trainiert. Stattdessen nutzen sie Reinforcement Learning mit verifizierbaren Rewards. Das Modell lernt durch Trial-and-Error:

RL Training Process
1. Modell generiert interne Reasoning-Tokens
2. Viele Gedankenpfade explorieren
3. Verifiable Rewards: Korrektheit? ✓ Code läuft? ✓
4. RL bestraft falsche Pfade, belohnt richtige
5. Modell lernt, Denkzeit effizient zu nutzen
Abb. 5 | Der RL-Loop: Das Modell generiert Reasoning-Tokens, erhält Feedback (verifiable rewards), und optimiert sein Verhalten. Dies geschieht völlig intern – der Nutzer sieht nur die finale Antwort.

Key Insights des Trainings

Verifiable Rewards

Mathematische Korrektheit, Code-Ausführung, Formal Verification – Belohnung nur für objektiv überprüfbare Ausgaben.

Keine Supervised Demos

Kein manuelles Annotieren von Denkvorgängen. Das Modell entdeckt das Reasoning spontan durch RL.

Error Correction

Das Modell lernt, eigene Fehler zu erkennen und zu korrigieren – alles intern, vor der Antwort.

Denkzeit ≠ Modellgröße

Test-Time Compute kann größere Modelle kompensieren. Effizienz-Paradigmawechsel.

Neue Skalierungsgesetze: Training + Inference

Traditionell folgen LLMs dem Chinchilla Scaling Law: Modellgröße × Trainings-Daten. Mit o1/o3 kommt eine neue Dimension hinzu: Test-Time Compute.

Abb. 6 | 3D-Skalierung: Statt nur Modellgröße und Trainingsdaten zu erhöhen, kann man auch Test-Time Compute erhöhen. Neue Architektur für Effizienz-Abwägungen.

Implikationen für die Zukunft

Limitationen und Zukunftsfragen

Aktuelle Limitationen

🔍 Black Box

Nutzer kann nicht sehen, wie das Modell denkt. Debugging von Fehlern ist schwierig.

💰 Kostspielig

Mehr Denkzeit = höhere Inferenzkosten. ROI-Berechnung notwendig für jeden Use-Case.

✓ Verifizierbarkeit

Funktioniert best für Probleme mit objektiven Antworten (Mathe, Code). Für Open-Ended Aufgaben schwächer.

Zukünftige Richtungen (Q4 2025–2026)

Vision für nächste Grenze
„Die nächste Grenze liegt in der Integration dieser Fortschritte: Reasoning-Modelle mit unbegrenztem Kontext, effizient durch MoE und Quantization, aligniert durch skalierbare AI-Feedback-Methoden."
Section 8: Key Takeaways

Kernerkenntnisse

1️⃣ Paradigmenwechsel

Nicht mehr: Größer = besser. Neu: Denkzeit = besser. RL-Training statt nur Supervised Fine-Tuning.

2️⃣ Verifiable Rewards

RL mit objektiven Belohnungen (Korrektheit) ermöglicht spontanes Reasoning ohne manuelle Annotation.

3️⃣ Test-Time Compute

Denkzeit kompensiert bis zu 14× Parameter. Neue Effizienz-Abwägungen für Deployment.

4️⃣ Performance-Sprung

AIME 88.9%, Frontier Math 25.2% (von <2%) – qualitativer Sprung in Reasoning-Fähigkeiten.

5️⃣ Trade-offs

Hidden Reasoning: Teuer, Black-Box, aber saubere Ausgabe. Explizites CoT: Billiger, transparent, fehlerhaft.

6️⃣ Zukunft Multi-Modal

Integration mit Kontext, MoE, Multi-Domain Reasoning. Aber Transparenz-Fragen bleiben offen.