Fig. 1 | Chain-of-Thought Effekt nach Modellgröße. Zwei Linien: Mit CoT (blau) und Ohne CoT (grau). Die Kurven divergieren erst bei ~100B Parametern. Dunkelgrau markiert die effektive Schwelle.
⚠️ Die kritische Schwelle
Chain-of-Thought zeigt signifikanten Effekt ab einer Modellgröße von etwa 100 Milliarden Parametern. Kleinere Modelle produzieren unverlässliche oder sogar irreführende Reasoning-Schritte. Dies wird oft als "Emergenz" von Reasoning-Fähigkeiten beschrieben.

Warum funktioniert CoT nur bei großen Modellen?

1
Komplexe Reasoning benötigt Kapazität: Um Zwischenschritte zu generieren und diese dann für die Finale Antwort zu nutzen, braucht das Modell genug Parameter um komplexe Logik zu repräsentieren. Kleine Modelle haben nicht genug "Speicher" für mehrstufiges Reasoning.
2
Phase-Change bei Scale: Wei et al. (2022) zeigten, dass viele Fähigkeiten (insbesondere Reasoning) in einem nicht-linearen "Phase-Change" bei bestimmter Modellgröße emergieren. CoT ist das paradigmatische Beispiel dieser Emergenz.
3
Datenqualität ist sekundär: Kleine Modelle profitieren NICHT von CoT, selbst wenn die Trainings-Daten CoT-Beispiele enthalten. Die Modelle können das Pattern einfach nicht internalisieren. Größe ist die primäre Variable.
4
Lokale vs Global Reasoning: Kleine Modelle können lokale Patterns (nächster Token) vorhersagen. Sie können aber nicht "global" planen: Schritt 1 → Schritt 2 → Schritt 3 → Lösung. Dies erfordert hierarchisches Reasoning.
5
Fine-Tuning hilft nicht: Man kann kleinere Modelle mit CoT-Daten fine-tunen, aber sie werden nicht signifikant besser. Sie werden nur "besser darin, CoT-Strings auszuschreiben" – aber die tatsächliche Reasoning-Qualität bleibt niedrig.
6
Implikation für Praktiker: Für kleine Modelle (< 50B) sollte man auf CoT verzichten und stattdessen auf direktes Few-Shot-Learning, Template-basierte Prompts oder Retrieval fokussieren. CoT ist Verschwendung von Context-Token.

Empirische Daten: Wei et al. (2022)

Aus der Originalarbeit "Emergent Abilities of Large Language Models". Die Tabelle zeigt CoT-Accuracy auf verschiedenen Benchmarks und Modellgrößen.

Modell & Größe MATH (Ohne CoT) MATH (Mit CoT) CoT Gewinn Effektiv?
PaLM 8B 2% 2% +0% ❌ Nein
PaLM 62B 4% 4% +0% ❌ Nein
PaLM 540B 8% 56% +48% ✅ Ja!
GPT-3 175B 17% 71% +54% ✅ Ja!

Praktische Implikationen

Für 7B/13B Modelle (z.B. Llama): CoT wird nicht empfohlen. Nutze stattdessen direkte Prompts, Few-Shot Examples in kurzer Form, oder spezialisierte Fine-Tuning.
Für 70B Modelle (z.B. Llama 2/3 70B): CoT kann helfen, aber nicht garantiert. Experimentieren Sie und messen Sie. Oft hilft strukturiertes Prompting (XML-Tags, Template) mehr.
Für 100B+ Modelle (GPT-4, Claude 3): CoT ist sehr effektiv. "Let's think step by step" ist eine sichere, zuverlässige Technik für komplexe Aufgaben.
Test-Time Compute: Statt CoT bei kleinen Modellen, nutze parallel samples (Best-of-N) oder andere Test-Time Techniken. Diese sind modellgröße-agnostisch.