5
Einfach: Sättigung bei ~2 Examples (85%→88%)
Mittel: Sättigung bei ~5 Examples (70%→85%)
Komplex: Sättigung bei ~10 Examples (50%→75%)
Optimal Point (Aktuell)
5
Genauigkeit @ Optimal
85%
Gewinn pro Example
3.2%
Token Cost (gesamt)
650
Fig. 1 | Few-Shot Skalierungskurven für drei Aufgaben-Schwierigkeiten. Jede zeigt unterschiedliche Saturationspunkte: Einfache Tasks benötigen nur 2 Beispiele, komplexe brauchen bis zu 10. Danach stagniert der Gewinn (diminishing returns).
📉
Plateau nach 5-10 Beispielen
Die Gewinn-Kurve folgt: schnell am Anfang → graduelles Abflachen → Stagnation. Nach 10 Beispielen ist der Marginal Gain oft <1% pro zusätzliches Beispiel.
⏱️
Task-Schwierigkeit bestimmt Plateau
Einfache Tasks: Plateau bei 2-3 Examples. Mittlere: bei 5-7. Komplexe: bei 10-15. Die Komplexität der Task limitiert, wie viel das Modell aus Examples lernen kann.
💰
Token-Kosten überwiegen Gains
15+ Beispiele kosten ~1500 zusätzliche Tokens mit Latenz-Impakt. Der Accuracy-Gewinn ist dann minimal. Optimal: 5-10 Examples basierend auf Task-Komplexität.
🎯
Format ist früh, Semantik ist spät
Beispiel 1-2: Modell lernt Format. Beispiel 3-5: Semantische Muster. Beispiel 6+: Nuancen. Aber das Sättigungs-Threshold ist durch Task Natur/Komplexität vorgegeben.
📊
Power-Law Skalierung
Accuracy folgt Power-Law: A(n) = A_∞ - c·n^(-α) wobei α≈0.4-0.6. Das erklärt das Plateau: Exponent ist klein, Gewinn wird exponentiell schneller klein.
🚀
Größere Modelle zeigen flacheres Plateau
70B Modelle: Plateau bei 3-5 Examples. 7B Modelle: Plateau bei 8-12. Größere Modelle haben bessere Prior-Wissen, brauchen weniger Struktur-Definition.
Task-Typ Baseline Optimal N Accuracy @ Opt Gain Empfehlung
Einfach 70% 2 88% +18 pp 2-3 Examples, mehr bringt <1% Gewinn
Mittel 60% 5 85% +25 pp 5-7 Examples, Cost-Benefit sweet spot
Komplex 45% 10 75% +30 pp 8-12 Examples, über 12 marginal
Sehr komplex 30% 15 68% +38 pp Überdenke: Prompt-Engineering oder Fine-Tuning?