Moderne LLMs verwenden Byte Pair Encoding (BPE) Vokabulare mit 50.000–128.000 Tokens. Jedes Token kann ein ganzes Wort, ein Teilwort oder einzelne Zeichen sein. Häufige Wörter sind einzelne Tokens, seltene Wörter werden in mehrere Sub-Tokens aufgeteilt.

100,000
Vokabular-Größe
~50%
Wort-Tokens
~40%
Subwort-Tokens
~10%
Zeichen/Spezial

Vokabular durchsuchen

Token-ID → Text

Text → Tokens

Ergebnis

Geben Sie eine Token-ID oder einen Text ein, um das Vokabular zu durchsuchen.

Häufigste Tokens

ID Token Typ Häufigkeit