Wie explizite Reasoning-Schritte die Genauigkeit von Sprachmodellen verbessern
Eine einfache Technik kann die Leistung von Sprachmodellen dramatisch verbessern: Sie aufzufordern, ihre Gedanken Schritt für Schritt auszudrücken. Dies wird Chain-of-Thought (CoT) genannt.
Ohne CoT können große Modelle zu Fehlern neigen, indem sie zu schnell antworten. Mit CoT verbessert sich die Accuracy, besonders bei Reasoning-Tasks wie Mathematik, Logik und mehrschrittigen Problemen.
Wichtig: Der Effekt ist bei großen Modellen (100B+ Parameter) viel stärker. Bei kleinen Modellen (unter 10B) hilft CoT weniger oder sogar überhaupt nicht.
Chain-of-Thought ist eine Prompting-Technik, bei der du das Modell auforderst, seine Gedanken auszudrücken, bevor es eine Antwort gibt. Dies hat mehrere Effekte:
1. Langsames Denken: Das Modell "denkt" durch den Problem, statt zu raten.
2. Fehlerprüfung: Wenn das Modell Schritte aufschreiben muss, kann es Fehler in der Logik bemerken und korrigieren.
3. Explizite Dedukton: Die Zwischenschritte zeigen die Logik, nicht nur das Endergebnis.
Zero-Shot CoT: "Let's think step by step" — eine magische Prompt ohne Beispiele
Few-Shot CoT: Mit Beispielen zeigen, wie man denken soll
Der obige Chart zeigt die Accuracy auf mathematischen Benchmarks (wie GSM8K) in Abhängigkeit von der Modellgröße.
Wichtige Erkenntnisse:
Hypothese: Große Modelle haben gelernt, dass die Zwischenschritte, die sie generieren, wertvoll für das Reasoning sind. Kleine Modelle haben diese Fähigkeit nicht entwickelt.
Mit anderen Worten: CoT funktioniert, weil das Modell selbst die Schritte nutzt um besser zu denken, nicht weil der Nutzer sie sieht.
| Situation | CoT nutzen? | Warum |
|---|---|---|
| Mathematische Probleme | ✓ Ja | Multi-Step Reasoning ist essentiell |
| Logik & Deduktion | ✓ Ja | Explizite Argumentation hilft |
| Generelle QA | ~ Vielleicht | Hilft nur, wenn komplexes Denken nötig ist |
| Zusammenfassungen | ✗ Nein | Keine komplexen Zwischenschritte nötig |
| Kreative Aufgaben | ✗ Nein | Kann die Kreativität einschränken |
| Mit kleinen Modellen (<10B) | ✗ Nein | Modell kann nicht sinnvoll reasoning |
Selbst-Konsistenz (Self-Consistency): Generiere mehrere CoT-Ketten und vote über das beste Ergebnis. Kann Accuracy um weitere +3-5% verbessern.
Least-to-Most Prompting: Zerlege komplexe Probleme in einfachere Subprobleme. Löse die vom einfachen zum komplexen.
Vergleich zu verstecktem Reasoning (o1/o3): CoT ist explizit (Nutzer sieht die Schritte), o1 ist implizit (Modell denkt intern). o1 ist oft besser, aber auch teurer.