Quantization-Methoden im Detail

Quantization Bits Größe (70B) Speedup Qualitätsverlust Training Primär Use-Case

Detaillierte Übersicht

Größe-vs-Qualität Trade-off

Training notwendig (QAT)
Post-Training möglich (PTQ)
Edge/Mobile Fokus
Fig. 1 | Trade-off zwischen Modellgröße und Qualitätsverlust für verschiedene Quantization-Verfahren. Größere Bubbles zeigen höhere praktische Adoption.
Key Insights

Schlüssel-Erkenntnisse

1
FP32 ist der Baseline: Alle anderen Verfahren vergleichen sich gegen Full Precision. Modernes Training nutzt allerdings schon FP16/BF16 für Effizienz.
2
FP16 ist praktisch verlustfrei: Mit nur 2 Bytes pro Wert reduziert FP16 Speicher um 50% ohne merkliche Qualitätsverluste. Der Standard für Cloud-Inferenz.
3
INT8 ist das ältere Standard-Verfahren: Post-Training Quantization (PTQ) ohne Retraining möglich, aber FP8 übertrifft INT8 bei modernen Transformern.
4
FP8 ist die moderne Wahl: Auf neueren Hardwares (NVIDIA H100, TPU v5e) ist FP8 der optimale Kompromiss: 8 Bits, besseres Qualitäts-Verhältnis als INT8, kaum Overhead.
5
INT4/FP4 sind Edge-fokussiert: Extreme Kompression (16× weniger Speicher), aber erfordert Kalibrierung und LoRA-Finetunes. Praktisch für Smartphones, aber mit Qualitätsverluste.
6
Quantization-Aware Training schlägt PTQ: QAT (mit retraining) ergibt bessere Qualität, kostet aber Trainings-Zeit. Praktisch meist PTQ für schnelle Deployment.