Das "Let's think step by step" Phänomen

Eine einfache Technik kann die Leistung von Sprachmodellen dramatisch verbessern: Sie aufzufordern, ihre Gedanken Schritt für Schritt auszudrücken. Dies wird Chain-of-Thought (CoT) genannt.

Ohne CoT können große Modelle zu Fehlern neigen, indem sie zu schnell antworten. Mit CoT verbessert sich die Accuracy, besonders bei Reasoning-Tasks wie Mathematik, Logik und mehrschrittigen Problemen.

Wichtig: Der Effekt ist bei großen Modellen (100B+ Parameter) viel stärker. Bei kleinen Modellen (unter 10B) hilft CoT weniger oder sogar überhaupt nicht.

Problem wird geladen...
❌ Ohne Chain-of-Thought
Das Modell antwortet direkt, ohne zu erklären...
15
Falsch ✗
✅ Mit Chain-of-Thought
Das Modell arbeitet Schritt für Schritt...
22
Richtig ✓

Was ist Chain-of-Thought?

Chain-of-Thought ist eine Prompting-Technik, bei der du das Modell auforderst, seine Gedanken auszudrücken, bevor es eine Antwort gibt. Dies hat mehrere Effekte:

1. Langsames Denken: Das Modell "denkt" durch den Problem, statt zu raten.

2. Fehlerprüfung: Wenn das Modell Schritte aufschreiben muss, kann es Fehler in der Logik bemerken und korrigieren.

3. Explizite Dedukton: Die Zwischenschritte zeigen die Logik, nicht nur das Endergebnis.

Zero-Shot vs Few-Shot CoT

Zero-Shot CoT: "Let's think step by step" — eine magische Prompt ohne Beispiele

Problem: 3 × (4 + 2) - 5 = ? Prompt: "Let's think step by step." Output: Schritt 1: 4 + 2 = 6 Schritt 2: 3 × 6 = 18 Schritt 3: 18 - 5 = 13

Few-Shot CoT: Mit Beispielen zeigen, wie man denken soll

Problem: 3 × (4 + 2) - 5 = ? Beispiel: Q: 2 × (3 + 5) + 1 = ? A: Schritt 1: 3 + 5 = 8 Schritt 2: 2 × 8 = 16 Schritt 3: 16 + 1 = 17 Q: 3 × (4 + 2) - 5 = ? A: (Modell folgt dem Beispiel-Format)

Modellgröße vs CoT-Effekt

Der obige Chart zeigt die Accuracy auf mathematischen Benchmarks (wie GSM8K) in Abhängigkeit von der Modellgröße.

Wichtige Erkenntnisse:

Warum funktioniert CoT nur bei großen Modellen?

Hypothese: Große Modelle haben gelernt, dass die Zwischenschritte, die sie generieren, wertvoll für das Reasoning sind. Kleine Modelle haben diese Fähigkeit nicht entwickelt.

Mit anderen Worten: CoT funktioniert, weil das Modell selbst die Schritte nutzt um besser zu denken, nicht weil der Nutzer sie sieht.

Wann sollte man CoT nutzen?

Situation CoT nutzen? Warum
Mathematische Probleme ✓ Ja Multi-Step Reasoning ist essentiell
Logik & Deduktion ✓ Ja Explizite Argumentation hilft
Generelle QA ~ Vielleicht Hilft nur, wenn komplexes Denken nötig ist
Zusammenfassungen ✗ Nein Keine komplexen Zwischenschritte nötig
Kreative Aufgaben ✗ Nein Kann die Kreativität einschränken
Mit kleinen Modellen (<10B) ✗ Nein Modell kann nicht sinnvoll reasoning

Verwandte Konzepte

Selbst-Konsistenz (Self-Consistency): Generiere mehrere CoT-Ketten und vote über das beste Ergebnis. Kann Accuracy um weitere +3-5% verbessern.

Least-to-Most Prompting: Zerlege komplexe Probleme in einfachere Subprobleme. Löse die vom einfachen zum komplexen.

Vergleich zu verstecktem Reasoning (o1/o3): CoT ist explizit (Nutzer sieht die Schritte), o1 ist implizit (Modell denkt intern). o1 ist oft besser, aber auch teurer.