Tự Động Hóa Xử Lý PDF Thành Embeddings Với AWS Lambda, Docker và CircleCI (TỪ A ĐẾN Z)

Lê Lân

21/07/2025

Xây Dựng Pipeline Tự Động Quản Lý Cơ Sở Dữ Liệu Vector Với AWS Lambda và CircleCI

Mở Đầu

Trong kỷ nguyên dữ liệu lớn và trí tuệ nhân tạo, việc quản lý cơ sở dữ liệu vector hiệu quả trở nên vô cùng quan trọng cho các ứng dụng tìm kiếm tương đồng, đề xuất dựa trên AI và truy xuất dữ liệu quy mô lớn.

Khi nguồn dữ liệu ngày càng tăng, việc cập nhật embeddings mới cho cơ sở dữ liệu vector bằng tay không chỉ tốn thời gian mà còn dễ dẫn đến sai sót. Vì vậy, tự động hóa quá trình này chính là giải pháp thiết yếu để đảm bảo tính chính xác và kịp thời. Bài viết này sẽ hướng dẫn bạn cách xây dựng một pipeline hoàn toàn tự động để xử lý và cập nhật cơ sở dữ liệu vector bằng cách sử dụng AWS Lambda và CircleCI. Hệ thống sẽ bao gồm các bước từ trích xuất văn bản từ PDF, tạo embeddings bằng OpenAI, đến lưu trữ trong Zilliz Cloud — một dịch vụ cơ sở dữ liệu vector được quản lý. Song song đó, bạn sẽ học cách thiết lập hạ tầng AWS (S3, ECR, Lambda) và cấu hình CI/CD với CircleCI để tự động hóa triển khai.

Nội dung bài viết bao gồm:

Giới thiệu tổng quan và các yêu cầu đầu vào

Thiết kế cấu trúc dự án và môi trường

Cài đặt cơ sở dữ liệu vector trên Zilliz Cloud

Xây dựng pipeline xử lý PDF và tạo embeddings

Triển khai AWS Lambda và container hóa bằng Docker

Thiết lập CI/CD với CircleCI

Đảm bảo chất lượng mã bằng kiểm thử và phân tích tĩnh

Phần 1: Chuẩn Bị Và Thiết Lập Môi Trường

1.1 Yêu Cầu Tiền Đề

Trước khi bắt đầu, bạn cần có:

Tài khoản AWS để sử dụng Lambda, ECR, S3

AWS CLI đã được cài đặt và cấu hình với quyền truy cập

Kiến thức cơ bản về LangChain, vector database và Docker

Tài khoản GitHub, CircleCI để quản lý mã nguồn và CI/CD

API Key OpenAI để tạo embeddings

Tài khoản Zilliz Cloud để tạo và quản lý collection vector database

Đảm bảo điền đầy đủ biến môi trường trong file .env với các thông tin như URI Zilliz Cloud, token truy cập, tên collection, thông tin AWS, OpenAI API key,...

1.2 Cấu Trúc Dự Án

Một cấu trúc dự án khoa học giúp việc phát triển và triển khai dễ dàng hơn:

├── .circleci/
│   └── config.yml
├── data/
│   └── sample.pdf
├── src/
│   ├── create_collection.py
│   ├── drop_collection.py
│   ├── insert_documents.py
│   └── __init__.py
├── aws_lambda/
│   ├── __init__.py
│   └── lambda_function.py
├── scripts/
│   ├── build_deploy.sh
│   ├── create_roles.sh
│   ├── create_image.sh
│   └── create_lambda.sh
├── tests/
│   ├── test_collection_exists.py
│   ├── test_lambda_function.py
│   └── test_collection_mock.py
├── Dockerfile
└── pyproject.toml

1.3 Cài Đặt Phụ Thuộc Với UV Package Manager

Sao chép repo dự án:

git clone https://github.com/benitomartin/embeddings-aws-circlecicd embeddings-aws-circleci

Cài đặt các thư viện cần thiết:

uv sync --all-extras
source .venv/bin/activate

Phần 2: Tạo Và Quản Lý Cơ Sở Dữ Liệu Vector Trên Zilliz Cloud

2.1 Thiết Lập Collection Trên Zilliz Cloud

Đăng ký tài khoản Zilliz Cloud và tạo cluster miễn phí

Lấy URI và Token truy cập, cài đặt vào .env

Đặt tên cho collection lưu trữ dữ liệu embedding

2.2 Tạo Collection Với Schema Chuẩn

Schema bao gồm:

Trường	Kiểu dữ liệu	Chú thích
`id`	INT64 (primary key)	Khóa chính tự tạo
`pdf_text`	VARCHAR	Nội dung văn bản trích xuất
`my_vector`	FLOAT_VECTOR (1536-d)	Embeddings vector từ OpenAI

Với Python, bạn sử dụng pymilvus để tạo collection và index tìm kiếm theo cosine similarity.

from pymilvus import MilvusClient, DataType

def create_schema(dimension=1536):
    schema = MilvusClient.create_schema(auto_id=True, enable_dynamic_field=True)
    schema.add_field(field_name="id", datatype=DataType.INT64, is_primary=True)
    schema.add_field(field_name="pdf_text", datatype=DataType.VARCHAR, max_length=65535)
    schema.add_field(field_name="my_vector", datatype=DataType.FLOAT_VECTOR, dim=dimension)
    return schema

Chạy script tạo collection:

uv run src/create_collection.py

Nếu cần xoá và tạo lại collection:

uv run src/drop_collection.py

Phần 3: Xây Dựng Pipeline Xử Lý PDF và Tạo Embeddings

3.1 Trích Xuất Văn Bản Và Chia Text Thành Các Đoạn

Sử dụng PyPDFLoader từ LangChain để đọc PDF và CharacterTextSplitter để chia đoạn nội dung thành từng khối nhỏ, tránh tràn ký tự khi tạo embedding.

3.2 Tạo Embeddings Và Lưu Trữ

Dùng OpenAI embeddings model để chuyển đoạn văn bản thành vector số, sau đó lưu vào cơ sở dữ liệu trên Zilliz Cloud.

from langchain_community.document_loaders import PyPDFLoader
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter
from pymilvus import MilvusClient
import os

def insert_documents(pdf_path):
    loader = PyPDFLoader(pdf_path)
    documents = loader.load()
    splitter = CharacterTextSplitter(chunk_size=512, chunk_overlap=100)
    chunks = splitter.split_documents(documents)

    embeddings = OpenAIEmbeddings()
    client = MilvusClient(uri=os.getenv("ZILLIZ_CLOUD_URI"), token=os.getenv("ZILLIZ_TOKEN"))

    data = []
    for chunk in chunks:
        vec = embeddings.embed_documents([chunk.page_content])[0]
        data.append({"pdf_text": chunk.page_content, "my_vector": vec})

    client.insert(os.getenv("COLLECTION_NAME"), data)

Chạy thử:

uv run src/insert_documents.py

Phần 4: Triển Khai AWS Lambda và Tự Động Hóa

4.1 Tạo IAM Role Cho AWS Lambda

Vai trò IAM cho phép Lambda truy cập S3 và ghi log CloudWatch với chính sách AWSLambdaExecute .

Script tạo role tự động: scripts/create_roles.sh

aws iam create-role --role-name your-role-name --assume-role-policy-document file://trust-policy.json
aws iam attach-role-policy --role-name your-role-name --policy-arn arn:aws:iam::aws:policy/AWSLambdaExecute

4.2 Viết AWS Lambda Function

Lambda function được kích hoạt khi có file PDF mới upload lên S3, tự động tải file, xử lý, tạo embeddings và lưu vào Zilliz Cloud.

import boto3
import os
from langchain_community.document_loaders import PyPDFLoader
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter
from pymilvus import MilvusClient

def lambda_handler(event, context):
    # Parse S3 event
    # Download file
    # Process PDF
    # Generate embeddings
    # Insert to Milvus
    # Xử lý lỗi và log chi tiết

Chi tiết source code đã có trong thư mục aws_lambda .

4.3 Container Hóa AWS Lambda Với Docker

Tạo requirements.txt tương thích cho Lambda

Viết Dockerfile sử dụng image Lambda Python

Build image và đẩy lên AWS ECR bằng script scripts/create_image.sh

4.4 Tạo Lambda Function Và Gắn Trigger S3

Script scripts/create_lambda.sh đảm nhận tạo hoặc cập nhật Lambda với image chứa code, cấu hình biến môi trường và thiết lập trigger từ S3 bucket:

aws lambda create-function --function-name your-lambda-name --package-type Image --code ImageUri=...
aws lambda add-permission --function-name your-lambda-name --principal s3.amazonaws.com --action lambda:InvokeFunction --source-arn arn:aws:s3:::your-bucket
aws s3api put-bucket-notification-configuration --bucket your-bucket --notification-configuration ...

Phần 5: Đảm Bảo Chất Lượng - Kiểm Thử Và Phân Tích Mã

5.1 Kiểm Thử Đơn Vị Với Pytest

Kiểm tra collection tồn tại, xóa collection

Mô phỏng Milvus client với mock

Test thực tế chức năng Lambda (sử dụng file PDF trên S3)

uv run pytest

5.2 Phân Tích Mã Nguồn Với Ruff Và MyPy

Ruff: Linter kiểm tra code style, lỗi cú pháp

MyPy: Kiểm tra tính an toàn kiểu dữ liệu

Chạy kiểm tra:

uv run ruff check . --fix --exit-non-zero-on-fix
uv run mypy

Phần 6: Xây Dựng CI/CD Pipeline Với CircleCI

6.1 Cấu Hình `.circleci/config.yml`

Sử dụng orb của AWS CLI, Docker để:

Checkout mã nguồn

Cài đặt phụ thuộc và môi trường ảo

Chạy lint, type checking và test

Triển khai Lambda lên AWS

version: 2.1

orbs:
  aws-cli: circleci/[email protected]
  docker: circleci/[email protected]

jobs:
  build-deploy:
    docker:
      - image: cimg/python:3.12
    steps:
      - checkout
      - run: curl -LsSf https://astral.sh/uv/install.sh | sh
      - run: uv sync --all-extras
      - run: uv run ruff check . --fix --exit-non-zero-on-fix
      - run: uv run mypy
      - run: uv run pytest
      - run: chmod +x scripts/build_deploy.sh
      - run: ./scripts/build_deploy.sh

workflows:
  version: 2
  deploy:
    jobs:
      - build-deploy

6.2 Script Triển Khai Tự Động `build_deploy.sh`

Gọi tuần tự các script:

Tạo IAM Role

Tạo image và push ECR

Tạo hoặc cập nhật Lambda function

6.3 Thiết Lập Và Chạy Pipeline

Đẩy code lên GitHub repo

Liên kết repo với CircleCI, cấu hình biến môi trường trong CircleCI Settings

Kích hoạt pipeline và theo dõi kết quả

Kết Luận

Trong bài viết, bạn đã học được cách xây dựng một pipeline tự động xử lý và cập nhật cơ sở dữ liệu vector từ file PDF sử dụng:

AWS Lambda để chạy serverless chức năng tạo embeddings

Docker & AWS ECR để container hóa và quản lý phiên bản Lambda function

Zilliz Cloud (Milvus) để lưu trữ và truy xuất vector embeddings nhanh chóng

CircleCI để tự động hóa kiểm thử, build và deploy, đảm bảo quy trình phát triển liên tục

Hệ thống này giúp giảm đáng kể thao tác thủ công và tăng độ chính xác khi làm việc với dữ liệu lớn. Tương lai, bạn có thể mở rộng thêm các tính năng như cải tiến logging, mở rộng kiểm thử, sử dụng AWS Secrets Manager cho bảo mật, cũng như giám sát và cảnh báo hoạt động Lambda để đảm bảo tính ổn định.

Hãy bắt tay ngay và xây dựng một hệ thống thông minh, giúp công việc xử lý dữ liệu vector của bạn trở nên hiệu quả và chuyên nghiệp hơn bao giờ hết!

Tham Khảo

Zilliz Cloud - Milvus Vector Database

AWS Lambda Developer Guide

CircleCI Documentation

OpenAI API

LangChain Framework

Pytest Testing Framework

Ruff Linter

MyPy Static Type Checker