Training-Daten Zusammensetzung

Die Balance zwischen verschiedenen Datenquellen bestimmt das Modellverhalten

CommonCrawl (Web)
~60%
Bücher & Artikel
~20%
Programmiercode
~12%
Akademische Quellen
~5%
Sonstiges
~3%

Vergleich: Daten-Mix verschiedener Modelle

GPT-4

Web: ~50%
Bücher: ~20%
Code: ~15%
Akademisch: ~10%
Größe: ~1.76T Token

Llama 3

Web: ~60%
Bücher: ~15%
Code: ~15%
Akademisch: ~5%
Größe: ~15T Token

Claude (Anthropic)

Web: ~55%
Bücher: ~25%
Code: ~12%
Akademisch: ~8%
Größe: ~4T Token

Mistral 7B

Web: ~70%
Bücher: ~10%
Code: ~12%
Akademisch: ~8%
Größe: ~600B Token
Key Insights

🔑 Schlüssel-Erkenntnisse

Web dominiert

CommonCrawl macht 50-70% der Daten aus. Größte verfügbare, aber qualitativ variabel.

Bücher für Qualität

Hochwertige, längerfristige Abhängigkeiten. Google Books, Project Gutenberg, akademische Quellen.

Code für Capabilities

GitHub, GitLab, Stack Overflow. Trägt zu Reasoning und Tool-Use bei.

Akademische Rigor

arXiv, Papers, Dissertationen. Kleine Menge, aber hohe konzeptionelle Dichte.

Deduplizierung

Entfernt Duplikate, verbessert Generalisierung. Komplexe Algorithmen (BloomFilter, exact matching).

Token vs. Datei

Große Dateien ≠ mehr Token. Tokenization variiert nach Sprache und Domain.

Daten-Qualität & Bereinigung

Selektion & Filterung

Language Detection: Nur Zielsprache
Quality Scoring: Entfernen Low-Quality
Perplexity Filtering: LM-basierte Qualitäts-Prüfung

Deduplizierung

Exact Match: Identische Sequenzen
N-gram Filter: Ähnliche Blöcke
Datensatz Level: Duplikate zwischen Quellen

Besorgnisse & Mitigationen

Bias: Stratifizierte Sampling
Urheberrecht: Berücksichtigung möglich
PII Removal: Datenschutz-Masking