Postgres Vượt Mặt Qdrant: Vén Màn Sức Mạnh Tìm Kiếm Vector Cực Đỉnh Trên 50 Triệu Embeddings!
Lê Lân
0
So Sánh Hiệu Suất Postgres và Qdrant Trên 50 Triệu Embeddings: Ai Mới Là Người Chiến Thắng?
Mở Đầu
Có một niềm tin phổ biến trong thế giới hạ tầng AI rằng để có hiệu suất cao trên các tác vụ tìm kiếm vector, bạn phải từ bỏ các hệ quản trị cơ sở dữ liệu tổng quát như Postgres và chuyển sang dùng các cơ sở dữ liệu vector chuyên dụng như Qdrant.
Tuy nhiên, trong Tuần Lễ Launch của Timescale, chúng tôi đã mang đến những benchmark đầy thuyết phục để thách thức quan điểm này. Bài viết này sẽ tổng hợp và phân tích kết quả so sánh hiệu suất giữa Postgres — với các extension pgvector và pgvectorscale — cùng Qdrant trên một bộ dữ liệu khổng lồ gồm 50 triệu embeddings. Qua đó, bạn sẽ thấy rõ Postgres không chỉ có thể giữ vững hiệu năng mà còn thể hiện khả năng vượt trội ở nhiều khía cạnh quan trọng, làm thay đổi cách bạn nghĩ về việc xây dựng ứng dụng AI sản xuất hiện đại.
Benchmark: So Sánh Postgres và Qdrant với 50 Triệu Embeddings
Bối Cảnh Thử Nghiệm
Chúng tôi thiết lập môi trường benchmark công bằng và khách quan với các đặc điểm sau:
Dataset gồm 50 triệu embeddings, mỗi embedding có 768 chiều
Sử dụng công cụ benchmark chuẩn công nghiệp là ANN-benchmarks
Tập trung vào tác vụ tìm kiếm approximate nearest neighbor (ANN), không áp dụng bộ lọc phức tạp
Chạy toàn bộ bài test trên phần cứng AWS tương đương nhau