Vergleich von BM25-Keyword-Suche und Embedding-basierten Ansätzen
Keyword-basierter Ansatz, der auf Wort-Häufigkeiten und Positionen basiert. Keine ML-Training nötig, extrem schnell.
Embedding-basiert, versteht Bedeutung. Besser bei Paraphrasen und semantisch ähnlichen Dokumenten.
BM25 ist 10-100× schneller, aber Dense hat bessere semantische Qualität. Wahl je nach Anwendungsfall.
Kombination: 30% BM25 + 70% Dense. Beste Balance zwischen Geschwindigkeit und Genauigkeit in Production.
BM25 skaliert linear, Dense benötigt Vector-DB (FAISS, Milvus). Für große Corpora: Hybrid oder nur Dense.
Google Search: BM25 als Filter, dann Ranker. RAG-Systeme: Dense Retrieval, BM25 als Fallback.