Xây dựng Trợ Lý Hỏi Đáp PDF Siêu Tốc với AI: Tối Ưu Hóa Từng Bước!

Lê Lân

22/08/2025

Xây Dựng Trợ Lý Hỏi Đáp PDF Tối Ưu Với Streamlit, LangChain, Hugging Face Và Supabase

Mở Đầu

Việc tích hợp Trí tuệ nhân tạo (AI) trong xử lý tài liệu PDF đang giúp nâng cao đáng kể hiệu quả công việc, từ trích xuất thông tin cho đến trả lời câu hỏi phức tạp dựa trên nội dung tài liệu. Tuy nhiên, nhiều lập trình viên gặp phải tình trạng mã chạy nhanh trên nền tảng đám mây như Google Colab nhưng lại chậm trên máy cục bộ.

Bài viết này sẽ hướng dẫn bạn cách xây dựng một Trợ lý hỏi đáp PDF tối ưu, giúp tải lên tài liệu PDF, kiểm tra trùng lặp, trích xuất, tạo embedding các đoạn văn bản, lưu trữ vào Supabase và trả lời các câu hỏi của người dùng thông qua mô hình ngôn ngữ lớn (LLM) của Hugging Face. Từng bước sẽ được mô tả chi tiết với giải pháp công nghệ hiện đại bao gồm Streamlit làm giao diện, LangChain điều phối AI, mô hình SentenceTransformer tạo embedding và Supabase làm cơ sở dữ liệu vectơ.

Công Nghệ Sử Dụng

Streamlit - Giao Diện Người Dùng

Streamlit cung cấp một front-end giao diện đơn giản, tiện lợi cho việc triển khai ứng dụng AI, cho phép người dùng thao tác tải file PDF và nhập câu hỏi một cách trực quan.

LangChain - Kết Nối LLM

LangChain đóng vai trò như "bộ não" kết nối mô hình ngôn ngữ lớn (LLM) và các bước xử lý pipeline, giúp quản lý luồng dữ liệu từ đầu vào đến kết quả trả lời.

Hugging Face - Mô Hình Ngôn Ngữ Lớn

Với thư viện Hugging Face, bạn có thể sử dụng các mô hình tiền huấn luyện mạnh mẽ để thực hiện truy vấn và tinh chỉnh các đoạn văn bản trích xuất từ PDF, đảm bảo câu trả lời chính xác và dễ hiểu.

Supabase - Cơ Sở Dữ Liệu Vector

Supabase là dịch vụ cơ sở dữ liệu vectơ tiện lợi cho việc lưu trữ embeddings và thực hiện tìm kiếm tương tự, giúp truy xuất đoạn văn bản liên quan nhanh chóng, giảm thiểu xử lý lại trên những tài liệu đã có.

Quy Trình Xử Lý PDF

Băm (Hash) Và Trích Xuất Dữ Liệu PDF

Có thể có nhiều file PDF với nội dung giống nhau được tải lên nhiều lần, việc kiểm tra bằng hàm băm MD5 giúp xác minh và tránh trùng lặp dữ liệu.

import hashlib

def hash_pdf(pdf_path):
    with open(pdf_path, "rb") as f:
        return hashlib.md5(f.read()).hexdigest()

Tiếp theo, sử dụng thư viện fitz (PyMuPDF) lấy ra toàn bộ nội dung văn bản và chia thành các đoạn nhỏ (chunks) thuận tiện cho việc embedding.

import fitz

def extract_and_chunk(pdf_path, chunk_size=500):
    doc = fitz.open(pdf_path)
    text = " ".join([page.get_text() for page in doc])
    words = text.split()
    chunks = [' '.join(words[i:i+chunk_size]) for i in range(0, len(words), chunk_size)]
    return chunks

Sử dụng PyMuPDF giúp xử lý PDF nhanh hơn so với pdfplumber, tối ưu hiệu suất trích xuất.

Chuyển Đoạn Văn Bản Thành Vector (Embedding) Và Lưu Vào Cơ Sở Dữ Liệu

Kỹ thuật embedding chuyển đổi đoạn văn bản thành dạng vectơ giúp hệ thống hiểu được ngữ nghĩa sâu xa để so khớp truy vấn.

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('all-MiniLM-L6-v2')

def embed_chunks(chunks):
    return model.encode(chunks, batch_size=16, show_progress_bar=True).tolist()

Sau khi tạo embedding, dữ liệu được đưa vào Supabase bảng documents1 với cấu trúc:

id	pdf_id	text	embedding
chunk1	md5_hash_cua_pdf	đoạn văn bản 1	vector embedding

def store_to_supabase(chunks, embeddings, pdf_id):
    data = [{
        "id": f"chunk{i+1}",
        "pdf_id": pdf_id,
        "text": chunk,
        "embedding": embedding
    } for i, (chunk, embedding) in enumerate(zip(chunks, embeddings))]
    
    supabase.table("documents1").upsert(data).execute()

Việc lưu trữ giúp truy xuất lại những phần liên quan cho lần hỏi đáp tiếp theo, tiết kiệm tài nguyên tính toán.

Truy Xuất Các Đoạn Văn Bản Liên Quan

Mỗi câu hỏi của người dùng được encode thành embedding, sau đó tìm kiếm các đoạn văn bản tương đồng nhất dựa trên so sánh cosine similarity.

def retrieve_chunks(query, pdf_id, top_k=10):
    query_embedding = model.encode(query).tolist()
    response = supabase.rpc("match_documents", {
        "query_embedding": query_embedding,
        "match_count": top_k,
        "pdf_id_filter": pdf_id
    }).execute()
    
    relevant_chunk = [row["text"] for row in response.data] if response.data else []
    return relevant_chunk

Chức năng match_documents trong Supabase cho phép thực hiện truy vấn similarity search nhanh với vector embedding.

Tinh Chỉnh Câu Trả Lời Với Mô Hình LLM

Đoạn văn bản relevant thu được thường chưa được trình bày rõ ràng, cần tinh chỉnh để đảm bảo câu trả lời chính xác, rõ ràng và dễ hiểu.

from huggingface_hub import InferenceClient

hf_client = InferenceClient(api_key=HF_TOKEN)

def refine_with_llm(relevant_chunk, question):
    refinement_input = "\n\n---\n\n".join(relevant_chunk)
    prompt = f"""
    Refine the following extracted text chunks for clarity, conciseness, and improved readability.
    Keep the technical meaning accurate and explain any complex terms simply if needed.
    
    Text to refine: {refinement_input}
    Question: {question}
    """
    response = hf_client.chat.completions.create(
        model="mistralai/Mixtral-8x7B-Instruct-v0.1",
        messages=[
            {"role": "system", "content": "You are an expert technical editor and writer."},
            {"role": "user", "content": prompt}
        ],
        temperature=0.7,
        max_tokens=500
    )
    refined_text = response.choices[0].message.content
    return refined_text

Sử dụng mô hình Mixtral-8x7B-Instruct-v0.1 giúp cung cấp câu trả lời có ngữ cảnh, mang tính chuyên môn, đồng thời giữ nguyên ý nghĩa kỹ thuật.

Giao Diện Ứng Dụng Với Streamlit

Thiết Lập Cơ Bản

Streamlit giúp xây dựng phần front-end tương tác đơn giản cho phép người dùng tải file PDF và nhập câu hỏi.

import uuid
import os
import streamlit as st

st.set_page_config(page_title="PDF Q&A Assistant")
st.title("📄 Ask Questions About Your PDF")

uploaded_file = st.file_uploader("Upload a PDF", type="pdf")

Xử Lý File PDF

PDF được lưu tạm thời với tên duy nhất và kiểm tra hash xem đã tồn tại trên supabase hay chưa.

if uploaded_file:
    with st.spinner("Processing PDF..."):
        pdf_path = f"temp_{uuid.uuid4().hex}.pdf"
        with open(pdf_path, "wb") as f:
            f.write(uploaded_file.read())
        pdf_id = hash_pdf(pdf_path)
        existing = supabase.table("documents1").select("id").eq("pdf_id", pdf_id).execute()

        if existing.data:
            st.warning("⚠️ This PDF has already been processed. You can still ask questions.")
        else:
            chunks = extract_and_chunk(pdf_path)
            embeddings = embed_chunks(chunks)
            store_to_supabase(chunks, embeddings, pdf_id)
        os.remove(pdf_path)
        st.success("PDF ready for Q&A.")

Tương Tác Hỏi Đáp

Sau khi PDF đã sẵn sàng, người dùng có thể nhập câu hỏi và nhận câu trả lời từ AI:

question = st.text_input("Ask a question about the uploaded PDF:")

if question:
    with st.spinner("Generating answer..."):
        results = retrieve_chunks(question, pdf_id)
        if not results:
            st.error("No relevant chunks found.")
        else:
            answer = refine_with_llm(results, question)
            st.markdown("### Answer:")
            st.write(answer)

Việc hiển thị trả lời ngay trên ứng dụng Streamlit tạo trải nghiệm người dùng liền mạch, dễ sử dụng.

Tóm Tắt Và Kết Luận

Trong bài viết, chúng ta đã cùng xây dựng một hệ thống hỏi đáp tài liệu PDF dựa trên các công nghệ hiện đại nhất như Streamlit, LangChain, SentenceTransformer, Hugging Face và Supabase.

Hệ thống:

Thực hiện băm và kiểm tra trùng lặp tài liệu.

Trích xuất và chia nhỏ văn bản từ PDF.

Tạo embedding và lưu trữ linh hoạt.

Truy xuất đoạn văn bản liên quan qua tìm kiếm vectơ.

Tinh chỉnh câu trả lời bằng mô hình LLM để rõ ràng, chính xác.

Triển khai giao diện người dùng thân thiện trên Streamlit.

Đây là một giải pháp toàn diện giúp nâng cao hiệu quả xử lý và truy vấn thông tin từ tài liệu PDF với AI.

Bạn có thể áp dụng ngay để phát triển các ứng dụng trợ lý thông minh cho doanh nghiệp hoặc học tập cá nhân.

Tham Khảo

Hugging Face Documentation

Supabase Vector Search Tutorial

Streamlit Official Site

Datatoinfinity (2023), “From PDF to Summary: Building an AI Agent with Python & Vector Databases - Basic,” link

GitHub Repository: khushboogup/Pdffolder

Demo website: PDFSUMMARIZATION Site

June 15, 2024