LLM Explorer – Embedding Lookup

Embedding Lookup:
E ∈ ℝ^(V×d) ... Embedding-Matrix
V = Vokabulargröße (z.B. 50.000)
d = Embedding-Dimension (z.B. 512)

Lookup-Operation:
embedding = E[token_id, :]

Dies ist eine einfache Zeilen-Selektion – keine Matrixmultiplikation nötig!

Warum Lookup?

Die Embedding-Matrix ist eine trainierbare Lookup-Tabelle. Jede Zeile entspricht einem Token und enthält dessen gelernten Vektor. Der Lookup ist eine O(1) Operation.

Dimensionen in der Praxis

Original Transformer: 512. BERT: 768. GPT-3: 12.288. Llama 2 7B: 4.096. Llama 3 70B: 8.192. Größere Dimensionen = mehr Kapazität, aber auch mehr Parameter.

Parameter-Count

Embedding-Matrix hat V × d Parameter. Bei GPT-4 (~100K Vokabular, geschätzt 12K Dimension): 1.2 Milliarden Parameter nur für Embeddings!

Training

Embedding-Vektoren werden während des Pretrainings gelernt durch Backpropagation. Semantisch ähnliche Tokens entwickeln ähnliche Vektoren (siehe embedding-space-2d.html).