Das einfachste Decoding-Verfahren ist Greedy Decoding: Wähle das Token mit der höchsten Wahrscheinlichkeit. Dies ist deterministisch und führt zu konsistenten, aber oft langweiligen Outputs.
Stochastisches Sampling erlaubt Variabilität: Sample Tokens entsprechend ihrer Wahrscheinlichkeitsverteilung. Dies erhöht Kreativität, kann aber zu "unlogischem Unsinn" führen.
Um diese Balance zu finden, verwenden moderne LLMs Filtering-Strategien, die die Anzahl der Kandidaten-Tokens begrenzen: