Tạo Chatbot AI Độc Đáo: Trò Chuyện Cùng File PDF Với LangChain, Ollama & Chroma!

Lê Lân

22/08/2025

Hướng Dẫn Tạo Chatbot Tương Tác Với PDF Bằng Streamlit, LangChain, Ollama và Chroma

Mở Đầu

Bạn đã bao giờ muốn xây dựng một chatbot tương tác có khả năng "đọc" và trả lời câu hỏi thông minh dựa trên nội dung của một tệp PDF chưa? Nếu có, thì bài viết này chính là dành cho bạn.

Trong kỷ nguyên của trí tuệ nhân tạo và tự động hóa, việc truy xuất thông tin từ các tài liệu dài như báo cáo, hướng dẫn sử dụng hay bài nghiên cứu đang trở nên thiết yếu. Bài viết này sẽ hướng dẫn chi tiết cách xây dựng một ứng dụng web đơn giản bằng Streamlit kết hợp với các công cụ AI như LangChain, Ollama và Chroma để tạo ra một chatbot có thể hiểu và trả lời các câu hỏi dựa trên nội dung PDF bạn tải lên.

Chúng ta sẽ cùng tìm hiểu cách upload, xử lý tệp PDF, biến các đoạn văn bản thành các vector embedding, và cuối cùng là tạo ra trải nghiệm trò chuyện thông minh với nội dung tài liệu. Bài viết cũng kèm theo video hướng dẫn trực quan giúp bạn dễ dàng thực hiện theo từng bước.

1. Tại Sao Nên Xây Dựng Chatbot PDF Này?

Lợi Ích Khi Sử Dụng Chatbot Dựa Trên PDF

Tiếp cận nhanh các kiến thức quan trọng trong các tài liệu dài mà không cần đọc từng trang.

Hỏi đáp tự nhiên với ngôn ngữ đời thường như: "Tóm tắt các kết quả chính" hay "Giải thích phần 3 theo cách đơn giản".

Không cần phụ thuộc vào các dịch vụ đám mây, đảm bảo riêng tư dữ liệu khi chạy mô hình tại chỗ.

Tiết kiệm chi phí nhờ sử dụng các công cụ mã nguồn mở như Ollama và Chroma.

Phù hợp cho những ai mới bắt đầu phát triển các ứng dụng AI tích hợp giao diện web.

Tổng Quan Các Thành Phần Công Nghệ

Công nghệ	Vai trò chính
Streamlit	Xây dựng giao diện web tương tác người dùng
LangChain	Điều phối luồng xử lý, kết nối các thành phần AI
Ollama	Cung cấp embeddings và mô hình ngôn ngữ tại chỗ
Chroma	Lưu trữ và truy xuất dữ liệu vector hóa từ văn bản

2. Chuẩn Bị Trước Khi Bắt Đầu

Yêu Cầu Hệ Thống

Python từ phiên bản 3.8 trở lên

Công cụ pip để cài đặt thư viện

Hiểu biết cơ bản về môi trường ảo virtualenv hoặc conda

Cài Đặt Các Thư Viện Cần Thiết

Mở terminal và chạy lệnh:

pip install streamlit langchain langchain-ollama langchain-community chromadb python-dotenv pypdf

Nếu bạn dùng các mô hình OpenAI như GPT-3.5, thêm:

pip install langchain-openai

và tạo file .env chứa API key:

OPENAI_API_KEY=your-api-key-here

Cài Đặt Ollama

Tải và cài đặt Ollama từ ollama.com . Kéo các mô hình như llama3.2 hoặc qwen2.5 về máy với lệnh:

ollama pull llama3.2
ollama pull qwen2.5

3. Giải Thích Mã Nguồn Ứng Dụng

3.1 Nhập Các Thư Viện Và Thiết Lập Môi Trường

import streamlit as st
from dotenv import load_dotenv
from langchain.schema import HumanMessage, AIMessage, SystemMessage
from langchain_ollama import ChatOllama, OllamaEmbeddings
from langchain.vectorstores import Chroma
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.document_loaders import PyPDFLoader
from langchain.chains import RetrievalQA
import os
import tempfile

load_dotenv()

Loading biến môi trường giúp bảo mật các khóa API và thông tin quan trọng nằm ngoài mã nguồn.

3.2 Cấu Hình Giao Diện Ứng Dụng

Hàm này thiết lập tiêu đề, icon và bố cục rộng cho trang web:

def configure_page():
    st.set_page_config(
        page_title="PDF Chat with LangChain, Ollama, and Chroma",
        page_icon="🤖",
        layout="wide",
        initial_sidebar_state="expanded",
    )
    st.title("📄🤖 Chat with Your PDF using LangChain, Ollama, and Chroma")
    with st.expander("Check State"):
        st.write(st.session_state)

3.3 Xử Lý Thanh Sidebar

Cho phép chọn mô hình AI (local với Ollama hoặc bên OpenAI)

Tải tệp PDF và xử lý nó thành các chunks văn bản

Tạo vector database với Chroma để truy vấn nhanh

Một số hàm quan trọng:

@st.cache_resource
def get_chat_model(model_name):
    if model_name == "gpt-3.5-turbo":
        from langchain_openai import ChatOpenAI
        return ChatOpenAI(
            api_key=os.getenv("OPENAI_API_KEY"),
            model=model_name,
            streaming=True,
        )
    return ChatOllama(model=model_name, streaming=True)

@st.cache_resource
def get_embeddings():
    return OllamaEmbeddings(model="mxbai-embed-large")

def load_pdf(uploaded_file):
    with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as tmp_file:
        tmp_file.write(uploaded_file.read())
        tmp_file_path = tmp_file.name
    loader = PyPDFLoader(tmp_file_path)
    documents = loader.load()
    os.unlink(tmp_file_path)
    return documents

def split_text(documents):
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=1000,
        chunk_overlap=200,
        length_function=len
    )
    texts = text_splitter.split_documents(documents)
    return texts

def create_vector_store(texts, embeddings):
    chroma_persist_directory = os.path.join(tempfile.gettempdir(), "chroma_db")
    vector_store = Chroma.from_documents(
        documents=texts,
        embedding=embeddings,
        persist_directory=chroma_persist_directory
    )
    vector_store.persist()
    return vector_store

Việc cache các tài nguyên giúp giảm thời gian tải lại và tiết kiệm tài nguyên khi app chạy lại.

3.4 Hiển Thị Cuộc Trò Chuyện

Duyệt qua các tin nhắn trong session và hiển thị chúng như bong bóng chat:

def display_chat_messages():
    for message in st.session_state.messages[1:]:
        if isinstance(message, HumanMessage):
            with st.chat_message("user"):
                st.write(message.content)
        elif isinstance(message, AIMessage):
            with st.chat_message("assistant"):
                st.write(message.content)

3.5 Xử Lý Đầu Vào Người Dùng

Người dùng gõ câu hỏi vào chat, sau đó xử lý bằng mô hình có kèm khả năng tìm kiếm trong vector store (nếu có):

def handle_user_input(chat_model, retriever):
    if prompt := st.chat_input("Ask something about your PDF"):
        st.session_state.messages.append(HumanMessage(content=prompt))
        with st.chat_message("user"):
            st.write(prompt)

        with st.chat_message("assistant"):
            message_placeholder = st.empty()
            full_response = ""
            try:
                response = chat_model.run(prompt)
                full_response = response
                message_placeholder.markdown(full_response)
                st.session_state.messages.append(AIMessage(content=full_response))
            except Exception as e:
                message_placeholder.markdown("❌ An error occurred while generating the response.")
                st.error(f"Error: {e}")

3.6 Hàm Chính Kết Nối Tất Cả

def main():
    configure_page()
    selected_model = handle_sidebar()
    chat_model = get_chat_model(selected_model)

    if "messages" not in st.session_state:
        st.session_state.messages = [
            SystemMessage(content="You are a helpful AI assistant.")
        ]

    if "vector_store" in st.session_state:
        retriever = st.session_state.vector_store.as_retriever()
        qa_chain = RetrievalQA.from_chain_type(
            llm=chat_model,
            chain_type="stuff",
            retriever=retriever,
            return_source_documents=False,
        )
        chat_model_with_retrieval = qa_chain
    else:
        chat_model_with_retrieval = chat_model

    display_chat_messages()

    retriever_instance = (
        st.session_state.vector_store.as_retriever()
        if "vector_store" in st.session_state else None
    )
    handle_user_input(chat_model_with_retrieval, retriever=retriever_instance)

if __name__ == "__main__":
    main()

4. Chạy Ứng Dụng

Lưu mã nguồn trên vào file app.py .

Mở terminal, chuyển đến thư mục chứa file và chạy:

streamlit run app.py

Mở trình duyệt vào địa chỉ http://localhost:8501 .

Trong sidebar, chọn mô hình AI mong muốn.

Tải lên file PDF bất kỳ để bắt đầu trò chuyện.

Ví dụ: tải tài liệu về Machine Learning và hỏi "What is gradient descent?".

Đảm bảo Ollama đang chạy nếu bạn chọn dùng các mô hình local.

5. Mẹo Và Hướng Phát Triển

Tùy biến mô hình: Thêm các lựa chọn khác hoặc chỉnh sửa kích thước phân đoạn văn bản giúp tăng độ chính xác.

Xử lý lỗi nâng cao: Triển khai các cơ chế thử lại khi câu hỏi bị lỗi.

Tối ưu hiệu năng: Dùng xử lý bất đồng bộ hoặc cơ sở dữ liệu vector chuyên biệt khi xử lý lượng tài liệu lớn.

An toàn dữ liệu: Lưu ý tệp tạm thời có thể chứa dữ liệu nhạy cảm, nên triển khai bảo mật cho môi trường sản xuất.

Giao diện: Bổ sung thêm phần trích dẫn nguồn hoặc highlight nội dung quan trọng khi chatbot trả lời.

6. Tham Khảo

Streamlit Documentation

LangChain GitHub

Ollama Official Site

Chroma Vector Database

YouTube Tutorial Video: PDF Chatbot with LangChain, Ollama & Chroma

Bạn đã sẵn sàng để xây dựng chatbot đọc hiểu PDF của riêng mình? Hãy thử ngay hôm nay và tận hưởng sức mạnh của AI cá nhân hóa ngay trên máy tính hoặc server của bạn!