Wie ein kleines Draft-Modell schnell Kandidaten generiert und ein großes Target-Modell diese parallel verifiziert – für 2-3× Speedup
Fig. 1 |Speculative Decoding Animation. Oben: Draft-Modell generiert schnell 4 Tokens. Unten: Target-Modell verifiziert parallel alle 4. Nach Verification: Accept/Reject pro Token (Grün=Accept, Rot=Reject).
Vergleich: Standard vs Speculative
Standard Decoding
Forward Pass 1Token 1
Forward Pass 2Token 2
Forward Pass 3Token 3
Forward Pass 4Token 4
Total4 Forward Passes
Speculative Decoding
Draft (schnell)4 Tokens
Target (parallel)4 Tokens
Accept3 Tokens ✓
Reject & Retry1 Token
Total2× schneller!
Schlüssel-Erkenntnisse
1
Draft + Target Paradigma: Ein kleines Modell (Draft, z.B. 7B) generiert schnell. Ein großes Modell (Target, z.B. 70B) verifiziert. Dies ist asymmetrisch: Draft ist billig, Target ist teuer. Die Asymmetrie ist der Trick.
2
Parallel Verification: Der Schlüssel ist, dass Target alle Draft-Kandidaten gleichzeitig verifiziert (eine single Forward Pass mit längerer Sequenz). Dies ist viel schneller als sequentielles Sampling.
3
Acceptance Rate entscheidend: Wenn Draft zu ähnlich Target ist, werden viele Tokens akzeptiert (~80-90%), und Speedup ist ~2-3×. Wenn Draft schlecht ist, viele Rejections, und Speedup sinkt zu ~1.2×.
4
Praktische Einschränkungen: Der Draft-Modell muss sehr ähnlich zum Target sein (sonst zu viele Rejections). Dies bedeutet: Draft ist oft ein kleinerer Checkpoint des gleichen Modells, nicht ein völlig unterschiedliches Modell.
5
Latenz vs Throughput: Speculative Decoding reduziert Latenz (wichtig für Interactive Use). Es reduziert aber nicht FLOPS-Requirement. Ideal für: Chat-APIs, Real-Time-Anwendungen. Schlecht für: Batch-Inference, Maximum-Throughput-Szenarien.
6
Allokation Entscheidung: In einer Welt mit begrenztem GPU-Budget: Speculative Decoding ist ein Engineering Trade-off zwischen Latenz-Improvement und Modell-Komplexität. Nur sinnvoll wenn Latenz kritisch ist.