Embedding-Raum Retrieval

Anzahl Nachbarn (k)

3

💡 Klicken Sie auf die Canvas, um eine neue Query zu setzen

Fig. 1 | 2D Projektion des Embedding-Raums mit 50 Dokumenten (blaue Punkte). Rote Punkt = Query. Orangene Linien = k nächste Nachbarn (bestimmt durch euklidische Distanz).

Durchschn. Distanz (k Nachbarn)

—

Max Distanz (k Nachbarn)

—

Retrieval Erfolgsrate

—

Ähnlichste Dok (cosine)

—

Schlüssel-Erkenntnisse

1

k-NN Retrieval: RAG-Systeme verwenden typisch k=3, 5, oder 10 nächste Nachbarn. Der Balance zwischen zu wenig (gemisst Quality) und zu viel (Kontext-Überladung) ist kritisch.

2

Embedding-Qualität ist alles: Wenn Embeddings gut trainiert sind (auf relevanten Daten), clustern semantisch ähnliche Dokumente zusammen. Schlechte Embeddings führen zu zufälligen Retrieval.

3

Curse of Dimensionality: In hohen Dimensionen (d=768 oder d=1536) werden Distanzen unintuativ. Alle Punkte sind etwa gleich weit entfernt. Dies ist ein bekanntes Problem bei Dense Retrieval.

4

Reranking Phase: Einfaches k-NN kann suboptimal sein. Moderne RAG-Systeme benutzen Stage-1 (schnelle Dense Retrieval, top-100) → Stage-2 (langsamer Cross-Encoder Reranker, top-10).

5

Negative Sampling: Bei Training von Embeddings ist "hard negative mining" wichtig: Dokumente die ähnlich (aber falsch) sind sollten trainiert werden, um getrennt zu werden. Random Negatives sind ineffektiv.

6

Praktische Implikation: Für Ihre RAG-Pipeline: Nutzen Sie vortrainierte Dense Embeddings (bge-large-en, voyage-2), nicht zufällige Initialisierungen. Fine-Tuning auf Ihren Domain hilft 5-10% Performance-Gewinn.