Few-Shot Scaling Plateau

📉

Plateau nach 5-10 Beispielen

Die Gewinn-Kurve folgt: schnell am Anfang → graduelles Abflachen → Stagnation. Nach 10 Beispielen ist der Marginal Gain oft <1% pro zusätzliches Beispiel.

⏱️

Task-Schwierigkeit bestimmt Plateau

Einfache Tasks: Plateau bei 2-3 Examples. Mittlere: bei 5-7. Komplexe: bei 10-15. Die Komplexität der Task limitiert, wie viel das Modell aus Examples lernen kann.

💰

Token-Kosten überwiegen Gains

15+ Beispiele kosten ~1500 zusätzliche Tokens mit Latenz-Impakt. Der Accuracy-Gewinn ist dann minimal. Optimal: 5-10 Examples basierend auf Task-Komplexität.

🎯

Format ist früh, Semantik ist spät

Beispiel 1-2: Modell lernt Format. Beispiel 3-5: Semantische Muster. Beispiel 6+: Nuancen. Aber das Sättigungs-Threshold ist durch Task Natur/Komplexität vorgegeben.

📊

Power-Law Skalierung

Accuracy folgt Power-Law: A(n) = A_∞ - c·n^(-α) wobei α≈0.4-0.6. Das erklärt das Plateau: Exponent ist klein, Gewinn wird exponentiell schneller klein.

🚀

Größere Modelle zeigen flacheres Plateau

70B Modelle: Plateau bei 3-5 Examples. 7B Modelle: Plateau bei 8-12. Größere Modelle haben bessere Prior-Wissen, brauchen weniger Struktur-Definition.

Task-Typ	Baseline	Optimal N	Accuracy @ Opt	Gain	Empfehlung
Einfach	70%	2	88%	+18 pp	2-3 Examples, mehr bringt <1% Gewinn
Mittel	60%	5	85%	+25 pp	5-7 Examples, Cost-Benefit sweet spot
Komplex	45%	10	75%	+30 pp	8-12 Examples, über 12 marginal
Sehr komplex	30%	15	68%	+38 pp	Überdenke: Prompt-Engineering oder Fine-Tuning?

Task-Typ

Baseline

Optimal N

Accuracy @ Opt

Gain

Empfehlung

Einfach

70%

88%

+18 pp

2-3 Examples, mehr bringt <1% Gewinn

Mittel

60%

85%

+25 pp

5-7 Examples, Cost-Benefit sweet spot

Komplex

45%

75%

+30 pp

8-12 Examples, über 12 marginal

Sehr komplex

30%

68%

+38 pp

Überdenke: Prompt-Engineering oder Fine-Tuning?