Chain-of-Thought Demo – LLM Explorer

Das "Let's think step by step" Phänomen

Eine einfache Technik kann die Leistung von Sprachmodellen dramatisch verbessern: Sie aufzufordern, ihre Gedanken Schritt für Schritt auszudrücken. Dies wird Chain-of-Thought (CoT) genannt.

Ohne CoT können große Modelle zu Fehlern neigen, indem sie zu schnell antworten. Mit CoT verbessert sich die Accuracy, besonders bei Reasoning-Tasks wie Mathematik, Logik und mehrschrittigen Problemen.

Wichtig: Der Effekt ist bei großen Modellen (100B+ Parameter) viel stärker. Bei kleinen Modellen (unter 10B) hilft CoT weniger oder sogar überhaupt nicht.

Wähle ein Mathe-Problem:

Problem wird geladen...

❌ Ohne Chain-of-Thought

Das Modell antwortet direkt, ohne zu erklären...

Falsch ✗

✅ Mit Chain-of-Thought

Das Modell arbeitet Schritt für Schritt...

Richtig ✓

Was ist Chain-of-Thought?

Chain-of-Thought ist eine Prompting-Technik, bei der du das Modell auforderst, seine Gedanken auszudrücken, bevor es eine Antwort gibt. Dies hat mehrere Effekte:

1. Langsames Denken: Das Modell "denkt" durch den Problem, statt zu raten.

2. Fehlerprüfung: Wenn das Modell Schritte aufschreiben muss, kann es Fehler in der Logik bemerken und korrigieren.

3. Explizite Dedukton: Die Zwischenschritte zeigen die Logik, nicht nur das Endergebnis.

Zero-Shot vs Few-Shot CoT

Zero-Shot CoT: "Let's think step by step" — eine magische Prompt ohne Beispiele

Problem: 3 × (4 + 2) - 5 = ?
Prompt: "Let's think step by step."

Output: Schritt 1: 4 + 2 = 6
        Schritt 2: 3 × 6 = 18
        Schritt 3: 18 - 5 = 13
            

Few-Shot CoT: Mit Beispielen zeigen, wie man denken soll

Problem: 3 × (4 + 2) - 5 = ?

Beispiel:
Q: 2 × (3 + 5) + 1 = ?
A: Schritt 1: 3 + 5 = 8
   Schritt 2: 2 × 8 = 16
   Schritt 3: 16 + 1 = 17

Q: 3 × (4 + 2) - 5 = ?
A: (Modell folgt dem Beispiel-Format)
            

Modellgröße vs CoT-Effekt

Der obige Chart zeigt die Accuracy auf mathematischen Benchmarks (wie GSM8K) in Abhängigkeit von der Modellgröße.

Wichtige Erkenntnisse:

🔴 Kleine Modelle (<10B): CoT hilft kaum oder überhaupt nicht. Directe Antwort ist manchmal besser.
🟡 Mittlere Modelle (10B-100B): CoT beginnt zu helfen, Verbesserung von +5-15%
🟢 Große Modelle (100B+): CoT hilft massiv, oft +20-40% Verbesserung. GPT-3 (175B): 58% → 78% auf GSM8K

Warum funktioniert CoT nur bei großen Modellen?

Hypothese: Große Modelle haben gelernt, dass die Zwischenschritte, die sie generieren, wertvoll für das Reasoning sind. Kleine Modelle haben diese Fähigkeit nicht entwickelt.

Mit anderen Worten: CoT funktioniert, weil das Modell selbst die Schritte nutzt um besser zu denken, nicht weil der Nutzer sie sieht.

Wann sollte man CoT nutzen?

Situation	CoT nutzen?	Warum
Mathematische Probleme	✓ Ja	Multi-Step Reasoning ist essentiell
Logik & Deduktion	✓ Ja	Explizite Argumentation hilft
Generelle QA	~ Vielleicht	Hilft nur, wenn komplexes Denken nötig ist
Zusammenfassungen	✗ Nein	Keine komplexen Zwischenschritte nötig
Kreative Aufgaben	✗ Nein	Kann die Kreativität einschränken
Mit kleinen Modellen (<10B)	✗ Nein	Modell kann nicht sinnvoll reasoning