Tự Động Hóa Xử Lý PDF: Từ A Đến Z Với AWS Lambda, Docker và CircleCI

Lê Lân

26/07/2025

Xây dựng Pipeline Tự Động Quản Lý Vector Database với AWS Lambda và CircleCI

Mở Đầu

Quản lý hiệu quả vector database là yếu tố then chốt trong các ứng dụng như tìm kiếm dựa trên độ tương đồng, hệ thống đề xuất AI và xử lý dữ liệu lớn. Tuy nhiên, với tốc độ tăng trưởng dữ liệu nhanh chóng, việc cập nhật embeddings thủ công trở nên tốn thời gian và dễ xảy ra lỗi.

Trong bài viết này, bạn sẽ được hướng dẫn chi tiết cách xây dựng một pipeline tự động hoàn chỉnh để xử lý và cập nhật vector database sử dụng AWS Lambda và CircleCI. Giải pháp bao gồm các bước: trích xuất văn bản từ các file PDF, tạo embeddings với OpenAI, lưu trữ trên Zilliz Cloud – một vector database được quản lý chuyên nghiệp. Bên cạnh đó, bạn sẽ thiết lập hạ tầng AWS (S3, ECR, Lambda) cũng như triển khai CI/CD để tự động hóa việc test và deploy.

Qua bài viết, bạn sẽ nắm bắt được cách quản lý vector database, xây dựng AWS Lambda function đóng gói bằng Docker, và vận hành pipeline CI/CD hiệu quả.

1. Chuẩn Bị và Tổ Chức Dự Án

1.1 Yêu Cầu Tiền Đề

Trước khi bắt đầu, bạn cần chuẩn bị:

Tài khoản AWS dùng cho Lambda, S3, ECR

AWS CLI đã được cài đặt và cấu hình

Kiến thức cơ bản về LangChain, database vector, AWS Lambda và Docker

Tài khoản GitHub và CircleCI để quản lý mã nguồn và tự động pipeline

OpenAI API Key để truy cập GPT models

Tài khoản Zilliz Cloud để quản lý vector database

Đảm bảo cấu hình biến môi trường chính xác trong file .env để tránh lỗi trong quá trình chạy pipeline.

1.2 Cấu Trúc Dự Án

Cấu trúc dự án được đề xuất gồm:

├── .circleci/
│   └── config.yml
├── data/
│   └── 1706.03762v7.pdf
├── src/
│   ├── create_collection.py
│   ├── drop_collection.py
│   ├── insert_documents.py
│   └── __init__.py
├── aws_lambda/
│   ├── __init__.py
│   └── lambda_function.py
├── scripts/
│   ├── build_deploy.sh
│   ├── create_roles.sh
│   ├── create_image.sh
│   └── create_lambda.sh
├── tests/
│   ├── test_collection_exists.py
│   ├── test_lambda_function.py
│   └── test_collection_mock.py
├── Dockerfile
└── pyproject.toml

Có tổ chức rõ ràng giúp dễ quản lý, test và triển khai.

1.3 Cài Đặt Dependencies với UV Package Manager

Sử dụng lệnh:

uv sync --all-extras
source .venv/bin/activate

Để cài đặt tất cả dependencies định nghĩa trong pyproject.toml và kích hoạt môi trường ảo.

2. Thiết Lập Vector Database với Zilliz Cloud

2.1 Đăng Ký và Thiết Lập Cluster

Đăng ký và tạo Cluster miễn phí trên Zilliz Cloud .

Lấy thông tin kết nối (URI và Token) từ phần cài đặt cluster.

2.2 Tạo Collection Lưu Embeddings

Tạo collection với schema tối ưu gồm:

Trường	Loại dữ liệu	Mục đích
id	INT64 (Primary)	Khóa chính tự tăng
pdf_text	VARCHAR	Lưu đoạn văn bản trích xuất
my_vector	FLOAT_VECTOR	Vector embeddings (dim=1536)

Ví dụ tạo schema và collection:

def create_schema(dimension: int = 1536) -> MilvusClient.create_schema:
    schema = MilvusClient.create_schema(
        auto_id=True,
        enable_dynamic_field=True,
    )
    schema.add_field(field_name="id", datatype=DataType.INT64, is_primary=True)
    schema.add_field(field_name="pdf_text", datatype=DataType.VARCHAR, max_length=65535)
    schema.add_field(field_name="my_vector", datatype=DataType.FLOAT_VECTOR, dim=dimension)
    return schema

Chạy script tạo collection:

uv run src/create_collection.py

Chú ý: Luôn đặt biến môi trường ZILLIZ_CLOUD_URI , ZILLIZ_TOKEN và COLLECTION_NAME để script hoạt động chính xác.

3. Xây Dựng Pipeline Xử Lý PDF và Tạo Embeddings

3.1 Trích Xuất Văn Bản Từ PDF

Sử dụng PyPDFLoader từ LangChain để trích xuất văn bản, sau đó tách thành các đoạn nhỏ (chunk) bằng CharacterTextSplitter nhằm đảm bảo chất lượng embeddings.

3.2 Tạo Embeddings Bằng OpenAI

Dùng OpenAIEmbeddings khởi tạo vector embeddings cho từng đoạn văn bản.

3.3 Lưu Trữ Dữ Liệu Vào Vector Database

Dữ liệu được chèn vào collection Zilliz Cloud bằng MilvusClient .

Ví dụ xử lý và chèn tài liệu

def insert_documents(pdf_path: str):
    documents = PyPDFLoader(pdf_path).load()
    chunks = CharacterTextSplitter(chunk_size=512, chunk_overlap=100).split_documents(documents)
    openai_embeddings = OpenAIEmbeddings()

    data = []
    for chunk in chunks:
        text = chunk.page_content
        embedding = openai_embeddings.embed_documents([text])[0]
        data.append({"pdf_text": text, "my_vector": embedding})

    client = MilvusClient(uri=os.getenv("ZILLIZ_CLOUD_URI"), token=os.getenv("ZILLIZ_TOKEN"))
    client.insert(os.getenv("COLLECTION_NAME"), data)

Chạy script:

uv run src/insert_documents.py

4. Triển Khai AWS Lambda và Containerization

4.1 Tạo IAM Role và Chính Sách Phân Quyền

Sử dụng script create_roles.sh để tạo IAM role có quyền thực thi Lambda và truy cập S3, cũng như ghi logs ra CloudWatch.

uv run scripts/create_roles.sh

4.2 Xây Dựng AWS Lambda Function

Lambda function được trigger khi có file PDF mới upload lên S3, tải file xuống, tạo embeddings và cập nhật vector database.

Điểm nổi bật:

Khởi tạo các clients Milvus và OpenAI một lần duy nhất để tối ưu thời gian.

Xử lý file PDF chia chunk, tạo embeddings, chèn dữ liệu.

Quản lý lỗi và logging chi tiết.

4.3 Đóng Gói Lambda Bằng Docker

Tạo requirements.txt chứa các package cần thiết:

langchain-community
langchain_milvus
boto3
langchain-openai
pypdf

Dockerfile:

FROM public.ecr.aws/lambda/python:3.12.2025.04.01.18
WORKDIR ${LAMBDA_TASK_ROOT}
COPY requirements.txt ./
RUN pip install --no-cache-dir -r requirements.txt
COPY aws_lambda/lambda_function.py ./lambda_function.py
CMD [ "lambda_function.lambda_handler" ]

Build và push ảnh Docker lên Amazon ECR với script create_image.sh :

uv run scripts/create_image.sh

4.4 Tạo Lambda Function và Kích Hoạt S3 Trigger

Script create_lambda.sh giúp tạo hoặc cập nhật Lambda function sử dụng ảnh Docker, đồng thời cấu hình bucket S3 trigger Lambda khi có đối tượng mới.

uv run scripts/create_lambda.sh

5. Kiểm Tra và Đảm Bảo Chất Lượng

5.1 Unit Testing Với Pytest

Tạo các test case kiểm tra tồn tại collection, chức năng drop collection, xử lý Lambda function. Ví dụ:

def test_check_collection_existence(milvus_client):
    collections = milvus_client.list_collections()
    assert os.getenv("COLLECTION_NAME") in collections

Chạy test:

uv run pytest

5.2 Kiểm Tra Mã Nguồn Với Ruff & MyPy

Ruff giúp kiểm tra style code, MyPy kiểm tra tính an toàn kiểu dữ liệu.

uv run ruff check . --fix --exit-non-zero-on-fix
uv run mypy

6. Triển Khai CI/CD Với CircleCI

6.1 Thiết Lập Config File

Tạo file .circleci/config.yml với các job:

Cài đặt môi trường

Chạy lint, type check, test

Build Docker image và deploy Lambda function

6.2 Script Tự Động Chạy Toàn Bộ

Sử dụng build_deploy.sh để gọi tuần tự các script tạo role, tạo image, tạo/ cập nhật Lambda

uv run scripts/build_deploy.sh

6.3 Kích Hoạt Pipeline CircleCI

Push code lên GitHub

Kết nối repository vào CircleCI

Cấu hình biến môi trường trong CircleCI Project Settings

Khởi chạy pipeline tự động

7. Vệ Sinh và Dọn Dẹp Tài Nguyên

Sau khi không cần dùng nữa, hãy xóa các tài nguyên như Lambda functions, S3 buckets, IAM roles, ECR repositories để tránh phát sinh chi phí không mong muốn.

Kết Luận

Bài hướng dẫn đã giúp bạn:

Hiểu cách thiết kế và triển khai pipeline tự động quản lý vector database trên cloud.

Tích hợp công nghệ AWS Lambda, Docker, CircleCI cùng OpenAI và Zilliz Cloud hiệu quả.

Áp dụng quản lý mã nguồn, kiểm thử, và deploy tự động giúp nâng cao hiệu quả phát triển và vận hành.

Hệ thống được xây dựng có thể mở rộng, dễ bảo trì và nâng cao chất lượng dữ liệu phục vụ cho các ứng dụng sử dụng vector embeddings hiện đại.

Hãy thử nghiệm và triển khai pipeline này trong các dự án AI và xử lý dữ liệu lớn của bạn để phát huy sức mạnh của tự động hóavà serverless architecture!

Tham Khảo

Zilliz Cloud Documentation

AWS Lambda Developer Guide

LangChain Official Repository

OpenAI API Documentation

CircleCI Docs

Martin, Benito. "Automating vector embeddings pipeline with AWS Lambda and CircleCI." GitHub Repository: https://github.com/benitomartin/embeddings-aws-circleci