Wie verschiedene Kompressionsverfahren (FP32, FP16, INT8, FP8, INT4, FP4) den Trade-off zwischen Modellgröße, Geschwindigkeit und Qualität verändern
Quantization-Methoden im Detail
Quantization
Bits
Größe (70B)
Speedup
Qualitätsverlust
Training
Primär Use-Case
Detaillierte Übersicht
Größe-vs-Qualität Trade-off
Training notwendig (QAT)
Post-Training möglich (PTQ)
Edge/Mobile Fokus
Fig. 1 |Trade-off zwischen Modellgröße und Qualitätsverlust für verschiedene Quantization-Verfahren. Größere Bubbles zeigen höhere praktische Adoption.
FP32 ist der Baseline: Alle anderen Verfahren vergleichen sich gegen Full Precision. Modernes Training nutzt allerdings schon FP16/BF16 für Effizienz.
2
FP16 ist praktisch verlustfrei: Mit nur 2 Bytes pro Wert reduziert FP16 Speicher um 50% ohne merkliche Qualitätsverluste. Der Standard für Cloud-Inferenz.
3
INT8 ist das ältere Standard-Verfahren: Post-Training Quantization (PTQ) ohne Retraining möglich, aber FP8 übertrifft INT8 bei modernen Transformern.
4
FP8 ist die moderne Wahl: Auf neueren Hardwares (NVIDIA H100, TPU v5e) ist FP8 der optimale Kompromiss: 8 Bits, besseres Qualitäts-Verhältnis als INT8, kaum Overhead.
5
INT4/FP4 sind Edge-fokussiert: Extreme Kompression (16× weniger Speicher), aber erfordert Kalibrierung und LoRA-Finetunes. Praktisch für Smartphones, aber mit Qualitätsverluste.
6
Quantization-Aware Training schlägt PTQ: QAT (mit retraining) ergibt bessere Qualität, kostet aber Trainings-Zeit. Praktisch meist PTQ für schnelle Deployment.