3
💡 Klicken Sie auf die Canvas, um eine neue Query zu setzen
Fig. 1 | 2D Projektion des Embedding-Raums mit 50 Dokumenten (blaue Punkte). Rote Punkt = Query. Orangene Linien = k nächste Nachbarn (bestimmt durch euklidische Distanz).
Durchschn. Distanz (k Nachbarn)
Max Distanz (k Nachbarn)
Retrieval Erfolgsrate
Ähnlichste Dok (cosine)

Schlüssel-Erkenntnisse

1
k-NN Retrieval: RAG-Systeme verwenden typisch k=3, 5, oder 10 nächste Nachbarn. Der Balance zwischen zu wenig (gemisst Quality) und zu viel (Kontext-Überladung) ist kritisch.
2
Embedding-Qualität ist alles: Wenn Embeddings gut trainiert sind (auf relevanten Daten), clustern semantisch ähnliche Dokumente zusammen. Schlechte Embeddings führen zu zufälligen Retrieval.
3
Curse of Dimensionality: In hohen Dimensionen (d=768 oder d=1536) werden Distanzen unintuativ. Alle Punkte sind etwa gleich weit entfernt. Dies ist ein bekanntes Problem bei Dense Retrieval.
4
Reranking Phase: Einfaches k-NN kann suboptimal sein. Moderne RAG-Systeme benutzen Stage-1 (schnelle Dense Retrieval, top-100) → Stage-2 (langsamer Cross-Encoder Reranker, top-10).
5
Negative Sampling: Bei Training von Embeddings ist "hard negative mining" wichtig: Dokumente die ähnlich (aber falsch) sind sollten trainiert werden, um getrennt zu werden. Random Negatives sind ineffektiv.
6
Praktische Implikation: Für Ihre RAG-Pipeline: Nutzen Sie vortrainierte Dense Embeddings (bge-large-en, voyage-2), nicht zufällige Initialisierungen. Fine-Tuning auf Ihren Domain hilft 5-10% Performance-Gewinn.