Biến Mô Hình ML Từ Giấy Thành 'Hàng' Thực Tế: Câu Chuyện Dự Đoán Khách Hàng Rời Bỏ

Lê Lân

17/08/2025

Hành Trình Từ Thí Nghiệm Machine Learning Đến Ứng Dụng Thực Tiễn: Dự Án Dự Đoán Customer Churn Sử Dụng FastAPI

Mở Đầu

Bạn từng tự hỏi làm thế nào để thu hẹp khoảng cách giữa các thí nghiệm machine learning (ML) và việc áp dụng thực tế trong sản xuất? Những ngày tháng dành để hoàn thiện mô hình ML chỉ để rồi nhận ra triển khai sản xuất là một thử thách hoàn toàn khác biệt.

Trong bài viết này, tôi sẽ chia sẻ hành trình triển khai dự án dự đoán khách hàng rời bỏ dịch vụ (customer churn) từ giai đoạn thăm dò dữ liệu trong Jupyter Notebook đến việc xây dựng một dịch vụ API hoàn chỉnh sử dụng FastAPI, vận hành hiệu quả với dữ liệu thực tế. Qua dự án, tôi nhận ra mô hình ML chỉ có giá trị khi có một hạ tầng vững chắc hỗ trợ phục vụ nó. Bài viết trình bày chi tiết cách tạo pipeline tùy chỉnh, cân bằng dữ liệu, xây dựng API, lưu trữ kết quả và nhiều bài học kinh nghiệm thực tiễn.

Từ Notebook Đến Sản Xuất: Thách Thức Quan Trọng

Quy Trình Điển Hình Trong Machine Learning

Quy trình ML thường được chia thành các bước sau:

Nghiên cứu: Thăm dò dữ liệu, chuyển đổi đặc trưng, huấn luyện mô hình trong môi trường Jupyter Notebook.

Xác thực: Cross-validation, tối ưu tham số, lựa chọn mô hình.

Khoảng cách sản xuất: Là nơi nhiều dự án dừng lại do thiếu kiến thức và hạ tầng triển khai.

Phần "Khoảng cách sản xuất" chính là điểm mấu chốt mà hầu hết dự án ML gặp khó khăn: xây dựng lớp API, xác thực dữ liệu, xử lý lỗi và khả năng mở rộng để mô hình thực sự có thể hoạt động ổn định trên môi trường thực.

Vì Sao Dự Án Này Đặc Biệt?

Công Nghệ Pipeline Tùy Chỉnh

Sự khác biệt lớn nằm ở việc xây dựng một pipeline tùy chỉnh sử dụng scikit-learn, với các transformer tự định nghĩa, giúp xử lý đặc trưng đặc thù một cách chuyên nghiệp và đồng nhất.

from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder

class DurationTransform(BaseEstimator, TransformerMixin):
    def fit(self, X, y=None):
        return self

    def transform(self, X):
        import pandas as pd
        if isinstance(X, pd.DataFrame):
            df = X.copy()
        else:
            df = pd.DataFrame(X, columns=["transactiondate", "membershipexpiredate"])
        df["transactiondate"] = pd.to_datetime(df["transactiondate"])
        df["membershipexpiredate"] = pd.to_datetime(df["membershipexpiredate"])
        result = (df["membershipexpiredate"] - df["transactiondate"]).dt.days
        return result.values.reshape(-1, 1)

gen_encoding = ColumnTransformer([
    ("gender", OneHotEncoder(), [1])
], remainder='passthrough')

sub_time = ColumnTransformer([
    ("duration_in_days", DurationTransform(), [8, 9])
], remainder='passthrough')

pipe = Pipeline([
    ('gen_encoding', gen_encoding),
    ('sub_time', sub_time)
])

Điểm quan trọng: Các transformer tùy chỉnh giúp áp dụng nhất quán logic xử lý dữ liệu giữa giai đoạn huấn luyện và dự đoán, tránh rò rỉ dữ liệu và tăng tính tái hiện.

Xử Lý Dữ Liệu Mất Cân Bằng Trong Dự Đoán Churn

Vấn Đề Dữ Liệu Mất Cân Bằng

Trong các bộ dữ liệu churn, nhóm khách rời bỏ (churners) thường chỉ chiếm 10-15%, còn lại là khách hàng trung thành chiếm đến 85-90%. Điều này ảnh hưởng lớn đến độ chính xác và khả năng tổng quát của mô hình.

Giải Pháp Undersampling

Sử dụng resample từ scikit-learn để lấy mẫu lại dữ liệu không cân bằng:

from sklearn.utils import resample

# Chia nhóm khách hàng trung thành và rời bỏ
zeros = dbtrain[dbtrain['ischurn'] == 0]   # 9,354 non-churners
ones = dbtrain[dbtrain['ischurn'] == 1]    # 646 churners

# Giảm số lượng khách trung thành để cân bằng với churners
zeros_undersampled = resample(zeros, replace=False, 
                              n_samples=len(ones), random_state=42)

# Kết hợp và xáo trộn dữ liệu
dbtrain_balanced = pd.concat([zeros_undersampled, ones])
dbtrain_balanced = dbtrain_balanced.sample(frac=1, random_state=42).reset_index(drop=True)

Kết quả là tập dữ liệu cân bằng với số lượng churners và non-churners bằng nhau (646 vs 646), giúp công cụ đánh giá và mô hình hoạt động ổn định và chính xác hơn.

Xây Dựng REST API Với FastAPI Cho Dự Đoán Churn

Thiết Kế API Và Xác Thực Dữ Liệu

FastAPI cùng Pydantic giúp xây dựng một RESTful API hiện đại, hỗ trợ kiểm tra dữ liệu đầu vào chặt chẽ và tự động sinh tài liệu mô tả:

from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
from typing import Optional
from datetime import date

app = FastAPI(title="Customer Churn Prediction",
              description="API ML sản xuất cho dự đoán churn",
              version="1.0.0")

class DataVal(BaseModel):
    userid: Optional[int] = None
    city: int
    gender: str
    registeredvia: int
    paymentmethodid: int
    paymentplandays: int
    actualamountpaid: int
    isautorenew: int
    transactiondate: date
    membershipexpiredate: date

Endpoint Dự Đoán

@app.post("/predict")
def predict(data: DataVal):
    # Validate và xử lý dữ liệu
    # Biến đổi dữ liệu qua pipeline, dự đoán, lưu kết quả
    try:
        # Chuyển dữ liệu đầu vào thành dạng list
        pipedata = [[
            data.city, data.gender, data.registeredvia, data.paymentmethodid,
            data.paymentplandays, data.actualamountpaid, data.isautorenew,
            data.transactiondate, data.membershipexpiredate
        ]]
        transformed = pipe.transform(pipedata)
        df_transformed = pd.DataFrame(transformed, columns=[
            "durationofsubscription", "female", "male", "city", "registeredvia", 
            "paymentmethodid", "paymentplandays", "actualamountpaid", "isautorenew"
        ])

        prediction = model.predict(df_transformed)
        result = {data.userid or generate_userid(): df_transformed.iloc[0].to_dict()}
        result[data.userid]["prediction"] = int(prediction[0])
        
        save_prediction(result)
        return result
    except Exception as e:
        raise HTTPException(status_code=500, detail=f"Dự đoán thất bại: {str(e)}")

Một số điểm nổi bật:

Tự động tạo tài liệu API tại /docs

Mã hóa kiểu dữ liệu chặt chẽ tránh lỗi

Quản lý user ID linh hoạt, lưu kết quả dự đoán an toàn

Xử lý lỗi thân thiện với người dùng

Quản Lý Dữ Liệu Người Dùng Và Lưu Trữ Kết Quả

Đảm Bảo Tính Bền Vững Của Dữ Liệu

Để theo dõi lịch sử dự đoán và người dùng, hệ thống cần lưu trữ vững chắc:

import json
import os

def valid_user(user: Optional[int]) -> int:
    """Generate or validate user ID with persistent storage"""
    if user is None:
        with open("data/users.json", "r") as f:
            data = json.load(f)
        max_user = max(data) if data else 0
        user = max_user + 1
        data.append(user)
        with open("data/users.json", "w") as f:
            json.dump(data, f, indent=2)
    else:
        with open("data/users.json", "r") as f:
            data = json.load(f)
        if user not in data:
            data.append(user)
            with open("data/users.json", "w") as f:
                json.dump(data, f, indent=2)
    return user

def save_prediction(result: dict):
    """Save prediction result with user data"""
    json_path = "data/userdata.json"
    if os.path.exists(json_path):
        with open(json_path, "r") as f:
            json_file = json.load(f)
    else:
        json_file = {}
    json_file.update(result)
    with open(json_path, "w") as f:
        json.dump(json_file, f, indent=2)

Quản lý người dùng và dữ liệu dự đoán không chỉ giúp audit và phân tích mà còn hỗ trợ tuân thủ các quy định về bảo mật và bảo vệ dữ liệu.

Tối Ưu Hóa và Lưu Trữ Mô Hình Với Cloudpickle

Tính Khó Khăn Khi Serializing Mô Hình

Thông thường, việc pickle truyền thống hay gặp sự cố với các object phức tạp như pipeline tùy chỉnh. cloudpickle là lựa chọn ưu việt để serialize mô hình có transformer riêng biệt.

import cloudpickle

# Lưu mô hình và pipeline
with open("model/model.pickle", "wb") as f:
    cloudpickle.dump(adaboost_model, f)

with open("model/pipe.pickle", "wb") as f:
    cloudpickle.dump(pipe, f)

# Tải mô hình và pipeline phục vụ sản xuất
with open("model/model.pickle", "rb") as f:
    model = cloudpickle.load(f)

with open("model/pipe.pickle", "rb") as f:
    pipe = cloudpickle.load(f)

Kiến Trúc Toàn Bộ Hệ Thống

Thành Phần	Chức Năng
Jupyter Notebook	Khám phá dữ liệu, huấn luyện, phát triển pipeline
FastAPI Service	Triển khai REST API, validate, error handling
Production Deployment	Load balancer, auto-scaling, monitoring
Custom Transformers	Biến đổi đặc trưng chuyên biệt
Pydantic	Xác thực dữ liệu đầu vào
JSON Storage	Lưu trữ dữ liệu người dùng và kết quả dự đoán

Kết Quả Hiệu Suất Và Bài Học Kinh Nghiệm

Mô Hình	Độ Chính Xác	Trạng Thái
AdaBoost	89.08%	✅ Đã triển khai
Random Forest	87.39%	✅ Dự phòng
Decision Tree	88.24%	✅ Giải thích dễ
Voting Classifier	82.35%	✅ Kết hợp mô hình

Năm Bài Học Quan Trọng

Hạ tầng còn quan trọng hơn mô hình: Mô hình chính xác đến đâu cũng vô nghĩa nếu hệ thống sản xuất không ổn định.

Xác thực dữ liệu là không thể thiếu: Pydantic giúp phát hiện lỗi sớm, tiết kiệm rất nhiều thời gian debug.

Transformer tùy chỉnh là chìa khóa: Đảm bảo tính nhất quán trong xử lý dữ liệu giữa huấn luyện và dự đoán.

Quản lý người dùng rất quan trọng: Dự đoán cần được lưu trữ, theo dõi, và tuân thủ luật bảo mật.

Xử lý lỗi hiệu quả: API cần có khả năng phục hồi mềm dẻo, trả lỗi rõ ràng và thân thiện.

Kết Luận

Triển khai API machine learning sản xuất là một cuộc chơi toàn diện vượt ra ngoài việc xây dựng mô hình. Bạn cần:

Hạ tầng vững chắc với API chuẩn, xác thực và khả năng mở rộng

Bảo đảm toàn vẹn dữ liệu qua pipeline và validation

Trải nghiệm người dùng dễ dàng với tài liệu, thông báo lỗi rõ ràng

Quản lý người dùng và dữ liệu chặt chẽ để tuân thủ quy định

Một mô hình ML tốt chỉ thật sự có giá trị khi được phục vụ bởi hệ thống ổn định, hiệu quả, và có khả năng mở rộng. Với cách tiếp cận này, tôi đã xây dựng được dịch vụ dự đoán churn tin cậy, có thể áp dụng thực tế cho các doanh nghiệp.

Bạn đã từng trải nghiệm thử thách gì trong việc đưa mô hình ML lên sản xuất? Hãy chia sẻ ý kiến và câu chuyện trong phần bình luận bên dưới nhé!

Tham Khảo

Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O'Reilly Media.

FastAPI Documentation

Pedregosa et al. (2011). Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research.

Cloudpickle: https://github.com/cloudpipe/cloudpickle

Pydantic: https://pydantic.dev/