In-Context Learning Demo

Sentiment-Analyse Beispiel

Few-Shot Beispiele (im Context):

Input: "Das Produkt ist großartig!" → Label: Positiv

Input: "Furchtbar, total enttäuscht." → Label: Negativ

Input: "Es ist okay, nichts Besonderes." → Label: Neutral

Neue Beispiel zum Klassifizieren:

Andere Aufgaben ausprobieren

Wie ICL funktioniert

1

Pattern Recognition: Das Modell erkennt das Format: "Input → Label". Es sucht nach wiederkehrenden Mustern in der Sequenz und wendet diese auf neue Inputs an.

2

Induction Heads Circuit: Forschung zeigt, dass speziale Attention-Heads (Induction Heads) diesen Mechanismus implementieren: Sie copieren das nächste Token basierend auf Repitition von vorherigen Pattern.

3

Nicht-parametrisch Lernen: Anders als traditionelles Machine Learning wird das Modell nicht neu trainiert. Stattdessen nutzt es die Context-Fenster (bis zu 128K!) um neue Tasks zu "programmieren".

4

Min et al. Entdeckung (2022): "Demonstrations are even more important than what is shown." Format und Struktur spielen größere Rolle als korrekte Labels. Der Modell lernt hauptsächlich aus dem Format.

5

Best Practices: Nutze XML/Markdown Tags um Struktur zu geben (Example hilft mehr als plain text). Relevante Beispiele sind wichtig. Mehr als 5-10 Beispiele bringt meist keine weitere Verbesserung.

6

Praktische Grenze: Große Modelle (100B+) zeigen starkes ICL. Kleine Modelle (7B-13B) zeigen schwaches ICL. Dies ist eine Form von "Emergence": Die Fähigkeit taucht erst bei bestimmter Modellgröße auf.