Quantization Vergleich

Größe-vs-Qualität Trade-off

Training notwendig (QAT)

Post-Training möglich (PTQ)

Edge/Mobile Fokus

Fig. 1 | Trade-off zwischen Modellgröße und Qualitätsverlust für verschiedene Quantization-Verfahren. Größere Bubbles zeigen höhere praktische Adoption.

Schlüssel-Erkenntnisse

FP32 ist der Baseline: Alle anderen Verfahren vergleichen sich gegen Full Precision. Modernes Training nutzt allerdings schon FP16/BF16 für Effizienz.

FP16 ist praktisch verlustfrei: Mit nur 2 Bytes pro Wert reduziert FP16 Speicher um 50% ohne merkliche Qualitätsverluste. Der Standard für Cloud-Inferenz.

INT8 ist das ältere Standard-Verfahren: Post-Training Quantization (PTQ) ohne Retraining möglich, aber FP8 übertrifft INT8 bei modernen Transformern.

FP8 ist die moderne Wahl: Auf neueren Hardwares (NVIDIA H100, TPU v5e) ist FP8 der optimale Kompromiss: 8 Bits, besseres Qualitäts-Verhältnis als INT8, kaum Overhead.

INT4/FP4 sind Edge-fokussiert: Extreme Kompression (16× weniger Speicher), aber erfordert Kalibrierung und LoRA-Finetunes. Praktisch für Smartphones, aber mit Qualitätsverluste.

Quantization-Aware Training schlägt PTQ: QAT (mit retraining) ergibt bessere Qualität, kostet aber Trainings-Zeit. Praktisch meist PTQ für schnelle Deployment.

Quantization-Methoden im Detail

Detaillierte Übersicht

Größe-vs-Qualität Trade-off

Schlüssel-Erkenntnisse