DPO: 'Phép Thuật' Mới Giúp Huấn Luyện AI Dễ Hơn Cả Ăn Kẹo!