Umfassende Vergleichstabelle moderner Large Language Models – von GPT-4 bis Llama 3, mit Architektur-Details, Benchmarks und Lizenz-Informationen.
Keine Modelle gefunden. Versuche eine andere Suche oder Filter-Kombination.
DeepSeek-R1 (Jan 2025) zeigte, dass Chain-of-Thought-Reasoning emergent während GRPO-Training lernen kann. Alle Major Labs folgen jetzt dem Reasoning-First Ansatz.
Claude 4.5 (Nov 2025) führt „Effort" Parameter ein: User kontrolliert direkt Denk-Zeit und Genauigkeit. Ermöglicht Dual-Mode (Fast + Deep) in einem Modell.
Llama 4 + Claude 4.5 nutzen Early Fusion: Text und Vision Tokens zusammen im LLM. Ermöglicht echte cross-modale Reasoning, nicht nur Bild→Text.
DeepSeek-V3.2 (Dez 2025) setzt Sparse Attention im Production ein: 60% Speicher-Einsparung, 4-5× schneller bei gleicher Qualität bis 1M+ Token Context.
Neue Benchmarks (ThinkBench, ELAIPBench) zeigen: Reasoning-Fähigkeit ist separat von Knowledge-Fähigkeit. Manche Modelle zeichnen sich nur in Reasoning aus.
DeepSeek-V3.2 bricht das Pricing-Modell: 75% günstiger als Claude/GPT bei vergleichbarer Performance. Sparse Attention + MoE Routing ermöglichen Kostenreduktion.