Durchsuchen Sie das BPE-Vokabular: Token-IDs nachschlagen, Text tokenisieren und häufigste Tokens entdecken
Moderne LLMs verwenden Byte Pair Encoding (BPE) Vokabulare mit 50.000–128.000 Tokens. Jedes Token kann ein ganzes Wort, ein Teilwort oder einzelne Zeichen sein. Häufige Wörter sind einzelne Tokens, seltene Wörter werden in mehrere Sub-Tokens aufgeteilt.
| ID | Token | Typ | Häufigkeit |
|---|