Integrating BM25 in Hybrid Search and Reranking Pipelines: Strategies and Applications
Lê Lân
1
Tích Hợp BM25 Trong Hệ Thống Tìm Kiếm Lai Và Quy Trình Tái Xếp Hạng: Chiến Lược Và Ứng Dụng
Mở Đầu
BM25 (Best Matching 25) là thuật toán nền tảng trong lĩnh vực truy xuất thông tin, nổi bật với khả năng đánh giá độ liên quan dựa trên từ khóa một cách hiệu quả và chính xác.
Trong bối cảnh các hệ thống tìm kiếm ngày càng phát triển với sự xuất hiện của các mô hình neural tiên tiến và truy vấn dựa trên vector, BM25 vẫn giữ vai trò thiết yếu trong các kiến trúc lai và quá trình tái xếp hạng. Bài viết này sẽ trình bày chi tiết về cách thức tích hợp BM25 trong các pipeline tìm kiếm lai và tái xếp hạng, cùng với các chiến lược triển khai, ứng dụng thực tiễn và những cân nhắc kỹ thuật quan trọng.
1. BM25 Trong Thành Phần Tìm Kiếm Lai
1.1 Tìm Kiếm Lai Là Gì?
Tìm kiếm lai (hybrid search) là sự kết hợp giữa phương pháp tìm kiếm dựa trên từ khóa (BM25) và tìm kiếm ngữ nghĩa dựa trên vector. Phương pháp này nhằm cân bằng giữa độ chính xác (precision) và độ bao phủ (recall).
1.2 Hợp Nhất Kết Quả Song Song (Parallel Retrieval Fusion)
Trong nhiều hệ thống như Elasticsearch hay Weaviate, BM25 và tìm kiếm vector chạy song song, sau đó kết quả được hợp nhất bằng các thuật toán fusion:
Reciprocal Rank Fusion (RRF): Kết hợp thứ hạng dựa trên công thức:
Weighted Score Combination: Tổng hợp điểm số dựa trên trọng số
cho BM25 và (1 -
) cho tìm kiếm vector:
1.3 BM25 Là Bộ Lọc Tiền Xử Lý
Trong những ứng dụng yêu cầu độ trễ thấp, BM25 thường được dùng để thu hẹp tập ứng viên trước khi tìm kiếm vector thực hiện:
SELECT*FROM documents
WHERE bm25_match(query)
ORDERBY vector_similarity DESC
LIMIT 100
Kỹ thuật hai giai đoạn này giúp giảm tải tính toán và loại bỏ sớm các tài liệu không liên quan.
1.4 BM25F - Tìm Kiếm Lai Có Cân Trọng Trường
BM25F là phiên bản mở rộng của BM25, cho phép gán trọng số khác nhau cho từng trường dữ liệu (title, body, v.v.). Công thức tính điểm BM25F:
Trong đó:
: trọng số trường
: độ dài trường
: tham số chuẩn hóa độ dài
Weaviate là ví dụ điển hình ứng dụng BM25F cho dữ liệu có cấu trúc.
2. Vai Trò Của BM25 Trong Các Pipeline Tái Xếp Hạng
2.1 Tái Xếp Hạng Tiền Xử Lý Lai
BM25 và tìm kiếm vector cùng lấy ra tập ứng viên khoảng 100-200 tài liệu, sau đó các mô hình cross-encoder (như bge-reranker-v2-m3) hoặc các mô hình ngôn ngữ lớn (LLM) thực hiện tái xếp hạng chính xác hơn:
BM25 lấy 50 tài liệu
Vector search lấy 50 tài liệu
Cross-encoder tái xếp hạng 100 tài liệu hợp nhất
2.2 Tăng Cường Điểm Cho Reranker Neural
Điểm BM25 được đưa vào mô hình tái xếp hạng như một đặc trưng quan trọng, ví dụ định dạng:
Theo nghiên cứu trong TREC Deep Learning Track, việc gán thêm điểm BM25 dưới dạng token văn bản (ví dụ: “BM25=0.85”) giúp tăng độ chính xác của các mô hình BERT-based lên đến 7.3% về MRR@10.
2.3 Cơ Chế Xử Lý Hòa Điểm (Fallback Tiebreaking)
Khi các neural reranker sinh ra kết quả hòa điểm, BM25 được sử dụng để phân giải thứ hạng:
Điều này đặc biệt quan trọng trong các lĩnh vực pháp lý hoặc quy định, nơi tính minh bạch và giải thích được ưu tiên hàng đầu.
3. Ứng Dụng Và Hướng Dẫn Triển Khai BM25
3.1 Khi Nào Nên Dùng BM25 Trong Tìm Kiếm Lai Hoặc Tái Xếp Hạng
Hệ thống cần cân bằng giữa độ chính xác truy vấn từ khóa và hiểu ngữ nghĩa ngữ cảnh
Ứng dụng đòi hỏi giải thích kết quả (explainability)
Tài nguyên tính toán hạn chế, cần giá trị nhanh và tiết kiệm
3.2 Chiến Lược Tối Ưu Hóa
Điều chỉnh tham số:
(bão hòa tần suất từ) và
(chuẩn hóa độ dài). Ví dụ, với tài liệu kỹ thuật, thường chọn
và
.
Trọng số linh hoạt: Sử dụng phân loại truy vấn để điều chỉnh trọng số
. Ví dụ:
Truy vấn điều hướng (như “Facebook login”):
Truy vấn khám phá (như “AI ethics”):
Lọc dựa trên điểm BM25: Loại bỏ tài liệu có điểm BM25 thấp (ví dụ
) trước bước tìm kiếm vector để giảm độ trễ.
Chiến lược
Mô tả
Ví dụ
Điều chỉnh
Tối ưu hóa dựa trên độ dài và tính chất tài liệu
,
cho tài liệu kỹ thuật
Trọng số
theo loại truy vấn
Tăng trọng số BM25 cho truy vấn điều hướng
cho “Facebook login”
Lọc tài liệu thấp điểm
Giảm số tài liệu đưa vào bước vector search
Loại bỏ
4. Hạn Chế Và Các Giải Pháp Thay Thế
4.1 Hạn Chế Của BM25
Không bắt được mối quan hệ ngữ nghĩa (ví dụ, từ đồng nghĩa “car” vs “automobile”)
Kém hiệu quả với truy vấn ít gặp hoặc trong các ngôn ngữ tài nguyên thấp
Điểm số không thể so sánh trực tiếp giữa các chỉ mục khác nhau, gây khó khăn trong tìm kiếm liên chỉ mục
4.2 Khi Nào Nên Chọn Neural Rerankers
Truy vấn có độ phức tạp ngữ nghĩa cao (ví dụ: “impact of inflation on renewable energy adoption”)
Hệ thống đa ngôn ngữ sử dụng các mô hình như Cohere Rerank hay Vectara Multilingual hỗ trợ hơn 40 ngôn ngữ
Yêu cầu cá nhân hóa sâu sắc, dùng các mô hình learning-to-rank (LTR)
Neural rerankers phù hợp với những kịch bản đòi hỏi hiểu sâu sắc, nhưng chi phí tính toán cao hơn đáng kể so với BM25.
5. Xu Hướng Mới Trong Tích Hợp BM25
BM25 như một đặc trưng reranker: Trong TREC 2023 Deep Learning Track, việc thêm điểm BM25 vào văn bản tài liệu (ví dụ: “Document: ... [BM25=0.72]”) tăng độ ổn định và độ chính xác của reranker.
Mô hình lai Sparse-Dense: SPLADE kết hợp trọng số từ BM25 với biểu diễn neural, đạt tới 94% tốc độ của BM25 và 98% độ chính xác của BERT.
BM25 trong pipeline LLM: Các công cụ như LangChain, LlamaIndex sử dụng BM25 để lọc ngữ cảnh đầu vào cho LLM, giảm nguy cơ hallucination từ 22% đến 37%.
Kết Luận
BM25 vẫn giữ vị trí không thể thay thế trong các hệ thống tìm kiếm lai và pipeline tái xếp hạng, dù neural search ngày càng phát triển mạnh mẽ. Sức mạnh của BM25 nằm ở:
Hiệu suất tính toán nhanh
Khả năng giải thích dễ dàng
Độ chính xác cao với các truy vấn từ khóa chính xác
Để phát huy tối ưu:
Dùng BM25 làm bộ lọc hoặc truy xuất bước đầu trong pipeline lai
Tích hợp điểm BM25 vào mô hình neural reranker dưới dạng đặc trưng
Dành neural reranking cho các tình huống phức tạp và yêu cầu ngữ nghĩa cao
Sự phối hợp này đảm bảo BM25 tiếp tục đóng vai trò chủ chốt, kết hợp với sức mạnh của các mô hình ngôn ngữ lớn và tìm kiếm vector trong thế giới truy xuất thông tin hiện đại.
Tham Khảo
Robertson, S. E., & Zaragoza, H. (2009). "The Probabilistic Relevance Framework: BM25 and Beyond." Foundations and Trends® in Information Retrieval.