Schritt 1: Token-ID identifizieren
Wähle ein Token aus dem Vokabular. Jedes Token hat eine eindeutige ID zwischen 0 und V-1 (Vokabulargröße).
Embedding Lookup:
E ∈ ℝ^(V×d) ... Embedding-Matrix
V = Vokabulargröße (z.B. 50.000)
d = Embedding-Dimension (z.B. 512)

Lookup-Operation:
embedding = E[token_id, :]

Dies ist eine einfache Zeilen-Selektion – keine Matrixmultiplikation nötig!
Warum Lookup?
Die Embedding-Matrix ist eine trainierbare Lookup-Tabelle. Jede Zeile entspricht einem Token und enthält dessen gelernten Vektor. Der Lookup ist eine O(1) Operation.
Dimensionen in der Praxis
Original Transformer: 512. BERT: 768. GPT-3: 12.288. Llama 2 7B: 4.096. Llama 3 70B: 8.192. Größere Dimensionen = mehr Kapazität, aber auch mehr Parameter.
Parameter-Count
Embedding-Matrix hat V × d Parameter. Bei GPT-4 (~100K Vokabular, geschätzt 12K Dimension): 1.2 Milliarden Parameter nur für Embeddings!
Training
Embedding-Vektoren werden während des Pretrainings gelernt durch Backpropagation. Semantisch ähnliche Tokens entwickeln ähnliche Vektoren (siehe embedding-space-2d.html).