Beobachten Sie Schritt für Schritt, wie der BPE-Algorithmus einen Text in Tokens zerlegt – die Grundlage jedes LLMs.
Byte Pair Encoding startet mit einzelnen Zeichen und fusioniert
iterativ die häufigsten benachbarten Paare zu neuen Tokens.
Im Beispiel aaabdaaabac wird zuerst aa → Z,
dann ab → Y, usw. fusioniert, bis die gewünschte
Vokabulargröße erreicht ist.