Wie LLMs trainiert werden: Zusammensetzung von Web, Büchern, Code und akademischen Quellen
Die Balance zwischen verschiedenen Datenquellen bestimmt das Modellverhalten
CommonCrawl macht 50-70% der Daten aus. Größte verfügbare, aber qualitativ variabel.
Hochwertige, längerfristige Abhängigkeiten. Google Books, Project Gutenberg, akademische Quellen.
GitHub, GitLab, Stack Overflow. Trägt zu Reasoning und Tool-Use bei.
arXiv, Papers, Dissertationen. Kleine Menge, aber hohe konzeptionelle Dichte.
Entfernt Duplikate, verbessert Generalisierung. Komplexe Algorithmen (BloomFilter, exact matching).
Große Dateien ≠ mehr Token. Tokenization variiert nach Sprache und Domain.