OpsFusion: Khi Dev & ML “Gặp Gỡ” – Tổng Hợp Buổi Gặp Mặt Công Nghệ Đỉnh Cao!
Lê Lân
1
OpsFusion: Nơi Giao Thoa Giữa Dev, MLOps và Platform Engineering
Mở Đầu
OpsFusion là sự kiện kỹ thuật quy tụ các chuyên gia và người đam mê trong lĩnh vực DevOps, MLOps và Platform Engineering, tạo nên một không gian học hỏi và chia sẻ sâu sắc.
Gần đây, tôi đã có cơ hội tham dự OpsFusion: Where Dev Meets ML — một meetup kỹ thuật kết nối các chuyên gia trong DevOps, MLOps và Platform Engineering. Sự kiện là sự kết hợp giữa các phiên thực hành, kinh nghiệm thực tế và các xu hướng mới trong những lĩnh vực giao thoa này.
Bài viết này sẽ tóm tắt cấu trúc từng phiên trình bày, cùng các điểm nổi bật quan trọng giúp bạn có cái nhìn toàn diện về những chủ đề được thảo luận tại sự kiện.
MLOps trong Vertex AI – Diễn giả: Navaneethan Gopal
Tổng quan về buổi trình bày
Phiên này tập trung xây dựng pipeline học máy end-to-end bằng Vertex AI, với trọng tâm tự động hóa toàn bộ vòng đời ML vượt ra ngoài công đoạn phát triển mô hình.
Các điểm nhấn chính
Sử dụng bài toán phân loại đa lớp với dataset Dry Beans được phát triển trên Google Colab cùng Gemini hỗ trợ code.
Dưới 1% công việc của MLOps là viết code ML thực tế. Phần lớn còn lại là các hoạt động vận hành như hạ tầng, điều phối, kiểm thử, giám sát.
Các thành phần cốt lõi của MLOps
Thu thập và xác nhận dữ liệu
Huấn luyện và đánh giá mô hình
Gỡ lỗi và phân tích
Giám sát mô hình sau triển khai
Hợp tác đa chức năng
Các giai đoạn trong vòng đời MLOps
Khám phá – vấn đề và dữ liệu
Phát triển – kỹ thuật đặc trưng, quản lý phiên bản dữ liệu, tích hợp feature store
Triển khai – cung cấp mô hình qua các pipeline tự động
Các cấp độ trưởng thành trong MLOps
Cấp độ
Mô tả
Level 0
Xây dựng và triển khai thủ công
Level 1
Tự động hóa các workflow huấn luyện
Level 2
Pipeline tự động và tái hiện đầy đủ môi trường
Tổng quan Pipeline trên Vertex AI
Tạo bucket trên Google Cloud Storage (GCS)
Định nghĩa dataset và thành phần huấn luyện dùng XGBoost
Khởi tạo và triển khai pipeline bằng SDK, kích hoạt từ Bitbucket hoặc cronjob
Các hoạt động mới trong lĩnh vực ML
MLFMOps: Quản lý các Large Foundation Models, latency, token, chi phí
LLMOps: Tối ưu cho Retrieval-Augmented Generation (RAG) và các mô hình ngôn ngữ lớn
PromptOps: Giám sát hiệu suất prompt và theo dõi hallucination
Giới thiệu Kubeflow
Nền tảng ML workflow gốc Kubernetes
Tạo thành phần tùy chỉnh và pipeline tái sử dụng
Kết nối ML nền tảng cơ bản với pipeline sản xuất có khả năng mở rộng
Phiên này nhấn mạnh nhu cầu xây dựng hệ thống ML bền vững, có thể tái tạo và tự động từ phát triển đến sản xuất.
Phát Triển Trunk-Based với Terraform – Diễn giả: Harini Muralidharan
Bối cảnh: Thách thức trong DevOps truyền thống
Sự không đồng nhất thường xuyên giữa môi trường dev và production
Developer phụ thuộc nhiều vào team vận hành cho những thay đổi nhỏ về hạ tầng
Thiếu minh bạch, khó theo dõi thay đổi hệ thống
Nguyên tắc DevOps do developer dẫn dắt
Developer định nghĩa và version hóa hạ tầng cùng code ứng dụng
Phát hiện lỗi sớm qua tự động hóa
Tăng trách nhiệm sở hữu mà không yêu cầu developers thành chuyên gia vận hành
Giới thiệu Terraform
Công cụ mã nguồn mở, đa đám mây
Cú pháp khai báo HCL thân thiện
Hỗ trợ tốt trên GCP với cộng đồng lớn mạnh
Các thành phần chính
Thành phần
Vai trò
Providers
Kết nối Terraform với dịch vụ đám mây
Resources
Định nghĩa các thành phần hạ tầng
Variables & Outputs
Tham số hóa và hiển thị thông tin
State Management
Quản lý trạng thái hạ tầng trong nhóm đa người
Quy trình làm việc phổ biến
terraform init – Khởi tạo dự án
terraform plan – Lập kế hoạch thay đổi hạ tầng
terraform apply – Triển khai thay đổi
terraform destroy – Xóa hạ tầng khi không dùng
Tích hợp Terraform với CI/CD
Sử dụng pipeline tự động trong YAML
Đảm bảo thay đổi hạ tầng nhất quán, có kiểm soát phiên bản
Best Practices
Lưu mã nguồn trên Git cùng version control rõ ràng
Dùng lưu trữ trạng thái từ xa (GCS hoặc Terraform Cloud)
Tuân thủ nguyên tắc quyền ít nhất (least privilege)
Module hóa để tái sử dụng và quản lý dễ dàng
Kiểm thử tự động trên các module hạ tầng
Giám sát drift cấu hình và hành động điều chỉnh kịp thời
Phiên trình bày nhấn mạnh sự cân bằng giữa trao quyền cho developer và vẫn duy trì tính toàn vẹn, bảo mật, mở rộng của hệ thống.
Platform Engineering vs DevOps: Phát Triển hay Cách Mạng? – Diễn giả: Crystal Darling
Vấn đề trong DevOps truyền thống
Team vận hành thường bị chặn bởi tiến độ phát triển
Developer phải gửi ticket hỗ trợ vận hành, mất thời gian chờ đợi
Thiếu quyền tự chủ trong môi trường, hạ tầng và công cụ
Định nghĩa Platform Engineering
Xây dựng và duy trì Internal Developer Platform (IDP)
Phát triển công cụ tự phục vụ, các abstraction tiện lợi cho developer
Xử lý developer như khách hàng, cung cấp môi trường nhất quán và an toàn
Kỹ năng then chốt của kỹ sư Platform
Orchestration trên Kubernetes
IaC tools như Terraform, Helm
Hệ thống CI/CD
Công cụ CNCF cho quan sát, triển khai và giám sát
Thông điệp chính
Platform Engineering không phải là DevOps được đổi tên mà là bước tiến văn hóa và kiến trúc, tập trung vào trải nghiệm developer, tự chủ và khả năng mở rộng.
Thảo Luận Về Nghiên Cứu ML và Kết Nối Mạng Lưới
Sự kiện khép lại với các cuộc thảo luận nhóm về những bài nghiên cứu mới nhất từ Microsoft và Google, tập trung vào các chủ đề như Copilot, Retrieval-Augmented Generation (RAG) và hoạt động nội tại của các hệ thống sinh tổng hợp.
Đây là dịp quý giá để kết nối, trao đổi và học hỏi cách vận dụng những công nghệ tiên tiến vào môi trường thực tế.
Kết Luận
Buổi meetup OpsFusion đã mang lại cho tôi cái nhìn tổng thể sâu sắc về sự phát triển đồng bộ của các hệ thống phần mềm hiện đại. Từ việc mở rộng mô hình ML qua MLOps, tự động hóa hạ tầng với Terraform, tới xây dựng nền tảng nội bộ hỗ trợ developer.
Nếu bạn đang làm việc tại điểm giao thoa giữa ML, hạ tầng và triển khai hoặc mong muốn kết nối phát triển với vận hành, những sự kiện như OpsFusion là cực kỳ hữu ích để cập nhật kiến thức và mở rộng mạng lưới chuyên môn.