DPO: 'Phép Thuật' Mới Giúp Huấn Luyện AI Dễ Hơn Cả Ăn Kẹo!

Lê Lân

26/07/2025

Proximal Preference Optimization và Ứng Dụng Trong Tinh Chỉnh Chính Sách RL

Mở Đầu

Trong lĩnh vực học tăng cường (Reinforcement Learning - RL), việc cập nhật chính sách hiệu quả và ổn định luôn là thách thức lớn. Gần đây, Rafael Rafailov cùng các đồng nghiệp tại Stanford đã đề xuất một phương pháp cải tiến mang tên Proximal Preference Optimization (PPO). Phương pháp này tập trung vào tối ưu hóa trực tiếp dựa trên những ưa thích (preference) và đã cho thấy sự cải thiện rõ rệt trong việc cập nhật chính sách.

Bài viết này sẽ giới thiệu chi tiết về phương pháp Proximal Preference Optimization, quá trình tinh chỉnh RL (RL fine-tuning), cũng như cách sử dụng hàm phân vùng (partition function) để đơn giản hóa mô hình và trực tiếp tối ưu hóa hàm mất mát mà không cần đến mô hình phần thưởng trung gian.

Proximal Preference Optimization: Khái Niệm Cơ Bản

Ưu điểm của cập nhật chính sách dựa trên ưa thích

Thông thường, các thuật toán RL sử dụng các tín hiệu phần thưởng để cập nhật chính sách. Tuy nhiên, việc thiết kế/ước lượng hàm phần thưởng đôi khi phức tạp và không chính xác, ảnh hưởng đến hiệu quả học tập của agent.

Proximal Preference Optimization đề xuất cách tiếp cận mới: thay vì ước lượng phần thưởng, mô hình trực tiếp sử dụng những chỉ số ưa thích giữa các hành động hoặc chính sách nhằm cập nhật một cách gần đúng nhưng hiệu quả chính sách.

Lưu ý quan trọng: Phương pháp PPO cải thiện tính ổn định trong cập nhật chính sách bằng cách giữ cho bản cập nhật chính sách mới không quá lệch so với chính sách cũ — từ đó giảm thiểu sự dao động và suy giảm hiệu suất trong quá trình học.

Cơ chế hoạt động

Phương pháp trực tiếp tối ưu hóa ưa thích dựa trên việc so sánh các chính sách hoặc hành vi được ưa thích hơn và điều chỉnh một cách có kiểm soát (proximal) các tham số chính sách sao cho phù hợp với ước muốn đó.

Quá Trình Tinh Chỉnh RL (RL Fine-Tuning)

Mô hình tinh chỉnh chính sách

Việc tinh chỉnh chính sách RL được thực hiện qua các bước chi tiết như sau:

Khởi tạo chính sách cơ bản dựa trên mạng neural hoặc hàm phân phối xác suất.

Thu thập dữ liệu ưa thích, tức là bộ dữ liệu phản hồi từ con người hoặc hệ thống đánh giá, để xác định các hành động được ưu tiên.

Cập nhật chính sách dựa trên thuật toán Proximal Preference Optimization nhằm tối ưu hóa trực tiếp tín hiệu ưa thích thu thập được.

Sơ đồ quá trình tinh chỉnh

Hình minh họa trên mô tả các bước chính của quy trình tinh chỉnh RL dựa trên tín hiệu ưa thích, bao gồm thu thập phản hồi, tính toán mất mát và cập nhật mô hình.

Sử Dụng Hàm Phân Vùng Để Đơn Giản Hóa Tối Ưu Hóa

Định nghĩa Hàm Phân Vùng (Partition Function)

Hàm phân vùng ( Z ) trong bối cảnh này được sử dụng để chuẩn hóa hàm xác suất trong mô hình. Tuy nhiên, việc tính toán giá trị của ( Z ) thường phức tạp do phạm vi không gian hành động lớn và tính toán đòi hỏi chi phí cao.

Bài toán và giải pháp

Thay vì tính toán trực tiếp ( Z ), phương pháp Proximal Preference Optimization sử dụng các đại lượng liên quan đến phân phối chính sách để loại bỏ yêu cầu này mà vẫn giữ được tính chính xác trong tối ưu hóa.

Ta có thể loại bỏ hàm ( Z ) khỏi công thức tối ưu, qua đó không cần mô hình hóa phần thưởng trung gian, mà trực tiếp tối ưu hàm mất mát theo preference được định nghĩa.

Lợi ích của việc này

Loại bỏ hàm phân vùng ( Z ) giúp phương pháp trở nên đơn giản hơn và hiệu quả hơn về mặt tính toán, đồng thời giảm thiểu sai số khi mô hình hóa phần thưởng phức tạp.

Tổng Kết Các Ưu Điểm và Ứng Dụng

Ưu điểm chính của Proximal Preference Optimization

Đơn giản hóa quy trình cập nhật chính sách RL bằng cách trực tiếp tối ưu ưa thích.

Tránh tính toán phức tạp của hàm phân vùng.

Cải thiện tính ổn định và hiệu quả khi cập nhật chính sách.

Hỗ trợ các ứng dụng trong học máy tương tác, chatbot, và các hệ thống có phản hồi con người.

Bảng tổng hợp so sánh phương pháp truyền thống và PPO

Tiêu chí	Phương pháp truyền thống	Proximal Preference Optimization
Cập nhật chính sách	Dựa vào phần thưởng ước lượng	Dựa trên chỉ số ưa thích trực tiếp
Tính toán hàm phân vùng (Z)	Có, phức tạp	Loại bỏ, đơn giản hóa
Ổn định trong cập nhật	Thấp do dao động chính sách	Cao, theo cơ chế proximal
Độ phức tạp thuật toán	Cao	Thấp và hiệu quả

Kết Luận

Phương pháp Proximal Preference Optimization đem lại một bước tiến quan trọng trong lĩnh vực học tăng cường bằng cách kết hợp kỹ thuật trực tiếp tối ưu hóa ưa thích với quy trình cập nhật chính sách ổn định. Việc loại bỏ hàm phân vùng phức tạp giúp giảm tải tính toán và nâng cao hiệu suất tổng thể của hệ thống.

Nếu bạn đang nghiên cứu hoặc phát triển các hệ thống RL có phản hồi con người hoặc muốn cải thiện quá trình học chính sách, phương pháp PPO là một lựa chọn đáng để khám phá và áp dụng trong thực tế.

Tham Khảo

Rafailov, R., et al. (2023). Proximal Preference Optimization: Direct Preference Optimization for Reinforcement Learning. Stanford University.

Christiano, P., et al. (2017). "Deep reinforcement learning from human preferences." Advances in Neural Information Processing Systems.

OpenAI Blog – Learning from Human Feedback November 20, 2023

Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction. MIT Press.