Triển khai Pixtral (LLM) với vLLM và Docker: Dễ như ăn kẹo!
Lê Lân
0
Hướng Dẫn Triển Khai Pixtral Với vLLM Và Docker Hiệu Quả
Mở Đầu
Việc triển khai các mô hình ngôn ngữ lớn (LLM) thường đòi hỏi sức mạnh tính toán rất cao và cần có hệ thống tối ưu để phục vụ inference hiệu quả. Trong bài viết này, bạn sẽ học cách đóng gói Pixtral — một mô hình ngôn ngữ hiện đại — trong Docker và chạy nó qua inference engine vLLM để tạo ra endpoint API tương thích OpenAI, sẵn sàng phục vụ bên ngoài.
Giải pháp này giúp bạn tận dụng tối đa GPU NVIDIA với CUDA, dễ dàng quản lý môi trường và tăng khả năng mở rộng cho ứng dụng AI của bạn. Hướng dẫn bao gồm các bước từ chuẩn bị môi trường, xây dựng Docker image, chạy container đến kiểm thử và thiết lập truy cập API từ bên ngoài.
📦 Chuẩn Bị
Yêu cầu:
Docker phiên bản mới nhất đã cài đặt
GPU NVIDIA hỗ trợ CUDA (nếu muốn tăng tốc phần cứng)
Model weights đã tải sẵn từ repo Pixtral trên Hugging Face hoặc đã có sẵn trên máy
Việc đảm bảo đủ các thành phần trên là bước nền tảng để tránh lỗi phát sinh khi chạy mô hình trong container.
🛠 Bước 1: Tạo Dockerfile
Dưới đây là nội dung mẫu Dockerfile cơ bản giúp bạn xây dựng môi trường chạy vLLM cùng Pixtral:
FROM nvidia/cuda:12.2.2-runtime-ubuntu22.04
# Cài đặt các thư viện hệ thống cần thiết
RUN apt-get update && apt-get install -y \
git wget curl python3 python3-pip && \
rm -rf /var/lib/apt/lists/*
# Cập nhật pip và cài đặt vLLM
RUN pip3 install --upgrade pip
RUN pip3 install vllm
# Đặt thư mục làm việc
WORKDIR /app
# Mở cổng 8000 để phục vụ API
EXPOSE8000
# Khởi chạy bash theo mặc định (có thể override khi chạy container)
CMD ["bash"]
Việc chọn base image nvidia/cuda:12.2.2-runtime-ubuntu22.04 giúp tận dụng driver CUDA mới nhất cho tối ưu GPU.
⚙️ Bước 2: Xây Dựng Docker Image
Chạy câu lệnh sau trong thư mục chứa Dockerfile để tạo image:
docker build -t pixtral-vllm .
Quá trình này sẽ kéo image base, cài đặt các phụ thuộc và tạo môi trường chạy vLLM.
📂 Bước 3: Chạy Container Với Truy Cập Mô Hình
Để chạy vLLM phục vụ Pixtral, dùng lệnh:
docker run --gpus all -it -p 8000:8000 pixtral-vllm \