Interaktive Demonstration: Wie das Modell aus wenigen Beispielen im Context lernt, ein neues Beispiel zu lösen
Sentiment-Analyse Beispiel
Input: "Das Produkt ist großartig!" →Label: Positiv
Input: "Furchtbar, total enttäuscht." →Label: Negativ
Input: "Es ist okay, nichts Besonderes." →Label: Neutral
Modell-Vorhersage:
—
Confidence: 0%
Andere Aufgaben ausprobieren
Vorhersage:
—
Wie ICL funktioniert
1
Pattern Recognition: Das Modell erkennt das Format: "Input → Label". Es sucht nach wiederkehrenden Mustern in der Sequenz und wendet diese auf neue Inputs an.
2
Induction Heads Circuit: Forschung zeigt, dass speziale Attention-Heads (Induction Heads) diesen Mechanismus implementieren: Sie copieren das nächste Token basierend auf Repitition von vorherigen Pattern.
3
Nicht-parametrisch Lernen: Anders als traditionelles Machine Learning wird das Modell nicht neu trainiert. Stattdessen nutzt es die Context-Fenster (bis zu 128K!) um neue Tasks zu "programmieren".
4
Min et al. Entdeckung (2022): "Demonstrations are even more important than what is shown." Format und Struktur spielen größere Rolle als korrekte Labels. Der Modell lernt hauptsächlich aus dem Format.
5
Best Practices: Nutze XML/Markdown Tags um Struktur zu geben (Example hilft mehr als plain text). Relevante Beispiele sind wichtig. Mehr als 5-10 Beispiele bringt meist keine weitere Verbesserung.
6
Praktische Grenze: Große Modelle (100B+) zeigen starkes ICL. Kleine Modelle (7B-13B) zeigen schwaches ICL. Dies ist eine Form von "Emergence": Die Fähigkeit taucht erst bei bestimmter Modellgröße auf.