Kapitel 5.1 | Induction Heads

Was sind Induction Heads?

Induction Heads sind spezialisierte Aufmerksamkeits-Schaltkreise (Attention Circuits) im Transformer, die eine fundamentale Fähigkeit implementieren: Pattern Completion.

Sie sind die technische Grundlage für In-Context Learning (ICL) – die bemerkenswerte Fähigkeit von LLMs, aus Beispielen in einem Prompt zu lernen, ohne dass das Modell neu trainiert wird.

Animations-Geschwindigkeit: 1.0×

Abb. 1 | Pattern Completion durch Induction Heads: Sequence [A][B]...[A][ ]. Das Modell erkannte ein Muster: Nach A kommt B. Also wird B vorhergesagt. Der Schieberegler steuert die Animationsgeschwindigkeit.

Das Pattern: [A][B]...[A] → [B]

Wenn ein Induction Head ein Token sieht, das es früher schon gesehen hat, „erinnert" es sich, was danach kam – und sagt genau das voraus.

Das Induction Head Pattern

Position i erkennt: „Ich habe dieses Token schon mal gesehen!"
Nachschlag: „An Position j (früher) kam nach diesem Token [B]"
Vorhersage: „Also sollte hier auch [B] kommen"

Mathematisch: Wenn Token(i) = Token(j) → Vorhersage Token(i+1) = Token(j+1)

Pattern Matching

IH erkennen, wenn ein Token wiederholt wird und könnten die nächste Token in der Folge vorhersagen.

In-Context Learning

IH ermöglichen es Modellen, in Prompts neue Muster zu erkennen und anzuwenden – ohne Retraining.

Emergentes Phänomen

ICL wird nicht explizit trainiert. IH entstehen spontan während des Trainings als Nebenprodukt.

Der Mechanismus: Two-Layer Circuit

Induction Heads funktionieren nicht als einfele Aufmerksamkeits-Operation. Sie benötigen eine Zwei-Schichten-Komposition:

Abb. 2 | Two-Layer Induction Head Circuit: Layer 1 kopiert Informationen vom vorherigen Token. Layer 2 nutzt dies um das Pattern zu vervollständigen.

Schicht 1: Previous-Token Head

Job: Information vom vorherigen Token (t-1) zum aktuellen Token (t) kopieren
Aufmerksamkeitsmuster: Jedes Token schaut auf das Token davor
Funktion: Stellt Kontext her – „was kam direkt davor"

Schicht 2: Induction Head

Job: Pattern completion – nutzt Information aus Layer 1
Aufmerksamkeitsmuster: Schaut auf Tokens mit ähnlichem Kontext (von Layer 1)
Funktion: „Wenn ich diesen Kontext schon mal gesehen habe, was folgte dann?"

Two-Layer Schematic

Layer 1 (Previous-Token Head):
Attn1(Q, K, V) → Output fokussiert auf t-1

Layer 2 (Induction Head):
Attn2(Q, K_neu, V_neu) wo K_neu vom Output von Layer 1 stammt
→ Kann Pattern-Matching durchführen

Ergebnis: Full Pattern Completion [A][B]...[A] → [B] möglich

Warum sind 2 Schichten nötig?

Eine einzelne Schicht kann nur direkte Nachbarschaften verarbeiten. Um das Pattern [A][B]...[A] → [B] zu erkennen, muss das Modell:

Information über den früheren Kontext heranholen (Layer 1)
Diese mit der aktuellen Position vergleichen (Layer 2)
Das passende Output auswählen (Layer 2 Ausgabe)

✓ Mit 2+ Schichten

Induction Heads bilden sich. In-Context Learning Fähigkeit entsteht. Modell kann Patterns generalisieren.

✗ Mit nur 1 Schicht

Keine Induction Heads möglich. Kein signifikantes ICL. Modell kann nur direkt benachbarte Token nutzen.

Section 3: Training Phase Change

Training: Der Phase Change von Induction Heads

Induction Heads entstehen nicht gradually während des Trainings. Stattdessen gibt es einen dramatischen Phase Change – einen gut observierbaren Moment, wo die Fähigkeit plötzlich auftaucht.

Trainings-Epoch: 5.0B Tokens

Abb. 3 | Training-Loss Kurve mit Phase Change: Bei ca. 2.5-5 Milliarden Tokens tritt ein deutlicher „Bump" auf – das Zeichen für die Entstehung von Induction Heads. Der Schieberegler zeigt die Position im Trainings-Verlauf.

Der Bump in der Loss-Kurve

Phase Change Merkmal

Timing: 2,5 - 5 Milliarden Training-Tokens
Signal: Deutlicher „Bump" in der Loss-Kurve sichtbar
Natur: Nicht graduelle Veränderung, sondern diskreter Übergang

Interpretation:
- Modell erreicht kritische Komplexität
- Induction Heads "klicken" ein
- ICL-Fähigkeit entsteht plötzlich
- Loss verbessert sich danach sharply

Was passiert am Phase Change?

Vorher: Modell nutzt nur lokale Patterns. Keine Induction Heads. Kein ICL.
Phase Change: Induction Head Circuit formt sich. Loss „bumpt" kurzzeitig.
Nachher: Modell hat ICL. Kann aus Prompts lernen. Bessere Generalization.

Timing ist früh!

Beachte: 2.5-5B Tokens ist relativ früh im Training. Große Modelle trainieren auf Trillionen von Tokens. Das bedeutet: ICL ist eine fundamentale Fähigkeit, die sich schnell entwickelt.

In-Context Learning: Wie Induction Heads es ermöglichen

In-Context Learning ist die Fähigkeit von LLMs, neue Tasks aus wenigen Beispielen zu lernen, ohne dass das Modell nachtrainiert wird. Induction Heads sind die Schaltkreise dahinter.

Beispiel: Few-Shot Pattern Learning

User: Übersetze English → German
Beispiel 1: "hello" → "hallo"
Beispiel 2: "goodbye" → "auf wiedersehen"
Neuer Input: "thank you" → ?

IH erkennt: [Englisch][Deutsch]...[Englisch] → [Deutsch]
Output: "danke"
            

Das Modell sah nie in seinem Trainings-Set dass es "thank you" übersetzen soll. Aber die Induction Heads erkennen das Pattern in den Beispielen und generalisieren korrekt.

Mechanism: Pattern Matching in Prompts

Prompt enthält Examples: [Task Description] [Input A] [Output A] [Input B] [Output B] ...
Induction Heads erkennen die Wiederholung: [Input] → [Output] Pattern
Wenn [Input C] hinzugefügt, IH weiß: Jetzt [Output C]
Modell generiert den passenden Output

Abb. 4 | In-Context Learning in Aktion: Prompt mit Examples, dann neuer Input. Induction Heads erkennen das [Example] → [Output] Pattern und generalisieren zur neuen Input.

ICL ist Emergent!

Emergente Eigenschaft

In-Context Learning wird nicht explizit trainiert.

Trainings-Prozess:
1. Modell auf Billionen Tokens trainiert (Standard LM Loss)
2. Modell sieht diverse Textbeispiele, Wiederholungen, Patterns
3. Als Nebeneffekt: Induction Heads entstehen
4. Nebeneffekt ermöglicht: Pattern Completion
5. Pattern Completion ermöglicht: ICL

Ergebnis: Modell kann ICL, obwohl dies nie Teil des Loss war!

Limitationen von Induction Heads

Die kritische Limitierung: Mindestens 2 Schichten nötig

Single-Layer Modelle

Können keine Induction Heads bilden. Eine einzelne Schicht reicht nicht aus für das Two-Layer Circuit. Folge: Kein signifikantes ICL möglich.

Implikation für Design

Minimum Netzwerk-Tiefe ist für ICL nötig. Flache Modelle haben fundamentale Limitation.

Architektur	Schichten	IH möglich?	ICL Qualität	Einsatz
Shallow Transformer	1 Layer	❌ Nein	Keine	NLP-Toys
Standard Transformer	2-4 Layers	✓ Ja (gering)	Schwach	Small Models
Modern LLM	20-80 Layers	✓ Ja (stark)	Stark	Production

Weitere Begrenzungen (erforscht aber nicht stark dokumentiert)

Context Length: IH können nur Patterns im KV-Cache erkennen. Außerhalb des Fensters blindspot.
Pattern Clarity: Wenn Pattern unklar ist, kann IH nicht generalisieren.
Modell Size: Größere Modelle haben stärkere IH. Kleine Modelle können schwache ICL haben.

Praktische Beispiele für Induction Heads

Beispiel 1: Code Completion

# Pattern im Prompt:
def add(a, b):
    return a + b

def subtract(a, b):
    return a - b

def multiply(a, b):

# IH erkennt: Funktion → Implementierung Pattern
# Output:
    return a * b
            

Beispiel 2: Sprach-Übersetzung

English: The weather is nice.
German: Das Wetter ist schön.

English: I love programming.
German:

# Pattern: English → German
# IH vervollständigt: Ich liebe Programmieren.
            

Beispiel 3: Format-Verständnis

JSON Format Beispiele:
{"name": "Alice", "age": 30}
{"name": "Bob", "age": 25}

Neuer Input:
{"name": "Charlie", "age":

# Pattern: Name → Age Structure
# IH sagt: 35} (z.B.)
            

In all diesen Fällen hat das Modell nie explizit gelernt, Code zu generieren, oder Deutsch zu schreiben. Es erkennt einfach das Pattern [X][Y]...[X] → [Y] und generalisiert.

Section 7: Key Insights

Kernerkenntnisse

1️⃣ Two-Layer Circuit

Induction Heads sind keine einzelne Aufmerksamkeits-Operation, sondern Composing von zwei Schichten: Previous-Token + Pattern Matching.

2️⃣ Emergentes Phänomen

ICL wird nicht trainiert. Es ist Nebeneffekt von LM-Pretraining. Induction Heads entstehen spontan bei 2.5-5B Tokens.

3️⃣ Phase Change

Die Entstehung ist nicht graduelle – es gibt einen klaren Phase Change mit erkennbarem Bump in der Loss-Kurve.

4️⃣ Tiefe ist essentiell

Single-Layer Modelle können keine IH bilden. Minimum 2 Schichten sind für ICL nötig – fundamentale Einschränkung.

5️⃣ Pattern Completion

Die kernale Funktion: [A][B]...[A] → [B]. Einfaches aber kraftvolles Mechanismus für die meisten ICL Tasks.

6️⃣ Interpretierbarkeit

Induction Heads sind ein Beispiel von mechanistic Interpretability – wir können die Schaltkreise im Modell buchstäblich sehen und verstehen.