Vokabular-Explorer – LLM Explorer

Moderne LLMs verwenden Byte Pair Encoding (BPE) Vokabulare mit 50.000–128.000 Tokens. Jedes Token kann ein ganzes Wort, ein Teilwort oder einzelne Zeichen sein. Häufige Wörter sind einzelne Tokens, seltene Wörter werden in mehrere Sub-Tokens aufgeteilt.

100,000

Vokabular-Größe