Warum Chain-of-Thought nur bei größeren Modellen funktioniert: Eine kritische Schwelle bei ~100 Milliarden Parametern
Aus der Originalarbeit "Emergent Abilities of Large Language Models". Die Tabelle zeigt CoT-Accuracy auf verschiedenen Benchmarks und Modellgrößen.
| Modell & Größe | MATH (Ohne CoT) | MATH (Mit CoT) | CoT Gewinn | Effektiv? |
|---|---|---|---|---|
| PaLM 8B | 2% | 2% | +0% | ❌ Nein |
| PaLM 62B | 4% | 4% | +0% | ❌ Nein |
| PaLM 540B | 8% | 56% | +48% | ✅ Ja! |
| GPT-3 175B | 17% | 71% | +54% | ✅ Ja! |