programming datascience codenewbie productivity

Prompt Engineering: Kỹ Năng "Vàng" Giúp Dân Khoa Học Dữ Liệu "Cân" AI

Lê Lân

16/08/2025

Kỹ Thuật Prompt Engineering Hiệu Quả Trong Khoa Học Dữ Liệu: Bí Quyết Nâng Cao Năng Suất Với AI

Mở Đầu

Trong kỷ nguyên số hóa, prompt engineering đã nhanh chóng trở thành kỹ năng thiết yếu cho mọi chuyên gia làm việc với dữ liệu. Khi các mô hình ngôn ngữ lớn (LLMs) như ChatGPT hay Claude ngày càng được tích hợp vào bộ công cụ khoa học dữ liệu, khả năng viết các câu lệnh (prompt) chính xác và hiệu quả trở nên quan trọng hơn bao giờ hết. Việc thành thạo prompt engineering không chỉ tăng tốc quá trình lập kế hoạch, làm sạch, khám phá và mô hình hóa dữ liệu mà còn giúp bạn nhận được câu trả lời phù hợp với từng nhiệm vụ cụ thể.

Hôm nay, các nhà khoa học dữ liệu không chỉ đơn thuần “hỏi” AI mà còn hướng dẫn AI bằng các câu lệnh có cấu trúc, ví dụ minh họa và cách suy luận từng bước. Bài viết này sẽ giúp bạn cắt bỏ những thông tin nhiễu, tập trung vào những kỹ thuật prompt engineering đã được chứng minh, giúp bạn tối ưu hiệu quả công việc từ phân tích dữ liệu đến trình bày kết quả. Hãy sẵn sàng để làm việc thông minh hơn và khai thác tối đa sức mạnh của các công cụ AI, dù bạn mới bắt đầu hay đã có kinh nghiệm.

Core Techniques for Effective Prompt Engineering in Data Science

Crafting Clear and Specific Prompts

Photo by ThisIsEngineering

Sự rõ ràng và cụ thể là điểm khởi đầu quan trọng cho mọi tương tác thành công với AI. Những câu hỏi mơ hồ kiểu "phân tích dataset này" thường dẫn đến câu trả lời chung chung, thiếu tính ứng dụng. Hãy giảng yêu cầu của bạn như một con dao mổ sắc bén: tập trung vào nhiệm vụ, kết quả mong muốn và chi tiết kỹ thuật.

Ví dụ: Thay vì: “Help me clean my dataset.” Hãy dùng: “My DataFrame has columns age, income, and city. Some ages and incomes are missing, and there are income outliers. Write pandas code to fill missing ages with the median and cap income outliers using the IQR method.”

Lợi ích: câu lệnh trực tiếp giúp giảm thời gian chỉnh sửa, tránh hỏi lại nhiều lần và tăng hiệu quả kết quả.

Bạn có thể tham khảo thêm hướng dẫn về kỹ thuật prompt engineering của IBM để xây dựng các câu lệnh chuẩn và cấu trúc.

Providing Context, Goals, and Constraints

AI hoạt động tốt nhất khi được cung cấp bối cảnh đầy đủ, bao gồm không chỉ nhiệm vụ mà còn mục tiêu tổng thể và các giới hạn công việc.

Bố cục thông tin nên bao gồm:

Mô tả dataset: kích thước mẫu, các cột, kiểu dữ liệu

Mục tiêu phân tích: ví dụ dự đoán doanh số, phân tích churn khách hàng, trực quan hóa xu hướng

Các ràng buộc: lệch lớp, dữ liệu thiếu, giới hạn tính toán, quy tắc ngành

Ví dụ chi tiết: “You’re a data scientist. I have historical sales data (5 years, daily). Columns: date, product, units_sold, region. I want to forecast Q4 sales by product and region, with clear visuals for executives. Suggest a project outline and preprocessing steps.”

Cung cấp đủ thông tin như vậy giúp AI hiểu rõ về nhiệm vụ và cho ra kết quả chính xác, sát thực tế hơn.

Bạn có thể đọc thêm về tầm quan trọng của việc cung cấp bối cảnh và cụ thể trong prompt tại Effective Prompts for AI: The Essentials .

Few-Shot and Example-Driven Prompting

Few-shot prompting cho phép bạn định hình phong cách và cấu trúc kết quả bằng cách cung cấp vài ví dụ cụ thể.

Trước tiên: Cho AI thấy cặp ví dụ trước – sau (before – after) trong các biến hoặc bảng dữ liệu

Nhận xét kiểu phân tích hoặc dạng xuất ra mong muốn

Yêu cầu AI áp dụng tương tự trên dữ liệu mới

Ví dụ:

Original: ‘Customer age’ → Standardized: ‘Age of customer at time of transaction.’  
Original: ‘purchase_amt’ → Standardized: ‘Transaction amount in USD.’  
Now standardize:  
Original: ‘cust_tenure’  
Original: ‘item_ct’

Kỹ thuật này rất hữu ích để giảm sự mơ hồ trong việc đặt tên biến, ghi chú biến, tóm tắt EDA và nhiều tác vụ khác.

Bạn có thể tìm hiểu sâu hơn về kỹ thuật prompting tại Prompting Techniques .

Chain-of-Thought and Stepwise Reasoning

Đối với các tác vụ phức tạp cần suy luận hoặc từng bước thực hiện, hãy hướng dẫn AI chia nhỏ quy trình. Kỹ thuật này gọi là chain-of-thought prompting.

Cách thực hiện:

Yêu cầu AI liệt kê chi tiết quá trình giải quyết

Làm rõ các thông tin cần thiết

Xác nhận hướng đi trước khi bắt đầu thực hiện

Hoàn tất kế hoạch hoặc phân tích

Ví dụ: “Before you suggest how to analyze late deliveries in our logistics data, list what operational metrics are most relevant. Then confirm if I want to focus on driver delays or warehouse issues. Finally, give a detailed step-by-step analysis plan.”

Phương pháp này giúp AI suy nghĩ có hệ thống tương tự như một chuyên gia dữ liệu cấp cao, mang lại sự minh bạch và logic cho kết quả.

Tham khảo chi tiết tại Become a Better Data Scientist with These Prompt Engineering Hacks .

Prompt Engineering Across the Data Science Lifecycle

Planning, Brainstorming, and Project Scoping Prompts

Một câu lệnh rõ ràng với đầy đủ bối cảnh và mục tiêu sẽ giúp AI tạo ra kế hoạch nghiên cứu, phân tích hiệu quả.

Ví dụ prompt: “You are a data scientist. I have a sales dataset from 2019-2024, including columns like date, region, sales_amount, and product_category. The goal is to predict quarterly sales per region. Suggest a high-level step-by-step project plan, including key preprocessing and modeling stages.”

Thông tin rõ ràng giúp AI:

Đề xuất roadmap chi tiết

Đưa ra các quyết định quan trọng cần xem xét

Nhắc nhở về các vấn đề tiềm ẩn (lệch lớp, thiếu dữ liệu)

Gợi ý lịch trình và rủi ro

Photo by ThisIsEngineering

Xem thêm tại Prompt Engineering Hacks .

Prompts for Data Cleaning and Preprocessing

Dọn dẹp dữ liệu chiếm đến 80% công việc và là nơi dễ bị mắc kẹt nhiều nhất. Sử dụng câu lệnh chi tiết giúp tiết kiệm thời gian và tránh lỗi.

Ví dụ prompt: “Given a DataFrame with missing income values, duplicated rows, and outlier ages, write pandas code to:

Drop duplicates

Impute missing incomes with the median

Cap age outliers using the IQR method. Include comments.”

Bạn cũng có thể hỏi về các cách xử lý biến phân loại với giá trị hiếm, ví dụ: “What are practical techniques for handling categorical variables with rare values in a customer churn dataset? Explain each option and its pros and cons.”

Prompt chi tiết còn giúp chuẩn hóa tên biến, định nghĩa và cách trình bày, giảm thiểu sai sót trong lập trình.

Tìm hiểu thêm tại Optimize Data Cleaning Using Prompting Strategies .

Guided EDA and Insight Generation

Khám phá dữ liệu là bước đầu tiên để kể chuyện với dữ liệu nhưng nếu chỉ hỏi “Analyze this dataset,” thường nhận về câu trả lời chung chung.

Ví dụ prompt: “I have an ecommerce dataset with customer_id, order_date, product, and order_value. I want to:

Spot purchasing trends by season

Find products frequently bought together

Identify highest spending customer groups Suggest columns to analyze, visualizations to create, and useful summary statistics.”

AI có thể đề xuất: biểu đồ chuỗi thời gian, phân tích rổ hàng (market basket), phân nhóm khách hàng,... phù hợp với yêu cầu của bạn.

Điều này giúp bạn phát hiện nhanh những mô hình hành vi, tránh bỏ sót xu hướng tiềm ẩn trong dữ liệu.

Xem thêm trong Prompt Engineering for AI Guide .

Feature Engineering and Modeling Prompts

Tạo ra các biến mới và lựa chọn mô hình thích hợp là lúc prompt engineering phát huy hiệu quả mạnh mẽ.

Ví dụ feature engineering prompt: “Given a customer dataset (age, signup_date, last_purchase, region, total_spent), suggest three new features that could boost purchase prediction. Write the feature engineering code in pandas.”

Ví dụ modeling prompt: “I have a highly imbalanced fraud detection dataset. Recommend algorithms that handle imbalanced classes well, and suggest techniques for evaluation and cross-validation.”

Câu lệnh nhắm đúng vấn đề sẽ giúp bạn có gợi ý cụ thể rất sát với thực tế dự án, tăng tốc độ rà soát và thử nghiệm mô hình.

Xem thêm tại Prompt Engineering in the Data Science Lifecycle .

Documentation and Communication Prompts

Truyền đạt kết quả rõ ràng là kỹ năng quan trọng. LLMs hỗ trợ chuyển đổi kết quả kỹ thuật thành các bản tóm tắt, bảng biểu và hình ảnh dễ hiểu, phù hợp với mọi đối tượng.

Ví dụ prompt:

“Summarize model performance for executives with no technical background. Highlight the accuracy, most important features, and business impact—skip statistical jargon.”

“Write a paragraph explaining the key result of a logistic regression model on churn risk for inclusion in a slide deck.”

Bạn cũng có thể yêu cầu AI tự động tạo: mô tả biến, sơ đồ quy trình, bản tóm tắt điều hành, giải thích code từng bước,... hỗ trợ onboarding và chuyển giao dự án.

Đây là bước đảm bảo mọi bên liên quan đều hiểu đúng, theo dõi tiến độ và đánh giá khách quan hiệu quả công việc.

Tham khảo thêm tại Prompt Engineering Life Cycle .

Advanced and Emerging Techniques: Trends in Prompt Engineering for Data Science

Prompt Chaining and Multi-Step Workflows

Photo by Ludovic Delot

Prompt chaining tách dự án lớn thành các bước nhỏ hơn, kết quả đầu ra của bước trước làm đầu vào cho bước tiếp theo. Giống như dây chuyền lắp ráp cho công việc AI:

Bước 1: làm sạch và chuẩn hóa dữ liệu đầu vào

Bước 2: trích xuất đặc trưng, khám phá mẫu

Bước 3: xây dựng mô hình, đánh giá kết quả

Lợi ích:

Dễ dàng theo dõi, kiểm tra lỗi từng bước

Tinh chỉnh trực tiếp từng phần để tối ưu hiệu quả

Quản lý các yêu cầu phức tạp tốt hơn bất kỳ prompt đơn lẻ nào

Tham khảo hướng dẫn chi tiết tại A Guide to Prompt Chaining in AI Workflows và IBM overview on prompt chaining .

Role-Based and Output-Constrained Prompting

Việc gán vai trò cho AI giúp tập trung nội dung và phong cách trả lời theo nhu cầu.

Ví dụ: AI là một kỹ sư dữ liệu cao cấp, chuyên gia học máy, hoặc nhà văn kỹ thuật.

Bên cạnh đó, giới hạn định dạng, độ dài, hoặc ngôn ngữ đầu ra giúp kiểm soát:

Mẫu báo cáo hay code chuẩn

Các lưu ý về phạm vi và độ phức tạp theo đối tượng dùng

Loại bỏ nội dung dư thừa hoặc mang tính chủ quan

Ví dụ yêu cầu:

Code pandas rõ ràng

Danh sách rủi ro dự án theo bullet points

Cấu trúc JSON mẫu cho báo cáo

Kỹ thuật này đặc biệt hữu ích cho công việc báo cáo định kỳ, chuẩn hóa tài liệu.

Xem thêm tại Prompting Techniques guide .

Iterative Testing and Refinement

Không dễ để có câu trả lời hoàn hảo trong lần thử đầu. Các chuyên gia coi việc prompt engineering là một quá trình thử nghiệm liên tục tương tự như quá trình tuning mô hình.

Quy trình cơ bản:

Bắt đầu với câu lệnh đơn giản, rõ ràng

Đánh giá kết quả: kiểm tra lỗi, thiếu sót, nội dung ngoài chủ đề

Chỉnh sửa câu lệnh: bổ sung thông tin, làm rõ ràng hơn, thay từ ngữ

Thử lại và tiếp tục chỉnh sửa cho tới khi thỏa mãn

Việc ghi lại các phiên bản prompt giúp bạn tăng tốc quá trình học và tối ưu.

Tìm hiểu thêm tại 7 Advanced Prompt Engineering Techniques .

Multimodal and Automated Prompt Tools

Prompt engineering hiện tại không còn giới hạn ở văn bản. Các mô hình đa phương thức (multimodal) có thể xử lý văn bản, hình ảnh, bảng biểu, code kết hợp.

Cho phép phân tích bảng dữ liệu kèm hình ảnh trực quan

Sử dụng screenshot, biểu đồ hay logs để đưa ra troubleshooting nhanh

Trình bày kết quả phức tạp trong một câu lệnh duy nhất

Bên cạnh đó, các công cụ tự động hoá prompt giúp tạo ra, thử nghiệm và tinh chỉnh hàng loạt câu lệnh bằng cách kết hợp phản hồi người dùng.

Truy cập tài nguyên tại Advanced Prompt Engineering Techniques .

Ethical, Responsible & Transparent Prompting

Cùng với sự phát triển của prompt engineering, các vấn đề về đạo đức, bảo mật, trách nhiệm cũng được quan tâm.

Không chia sẻ dữ liệu nhạy cảm, cá nhân trong prompt

Dùng dữ liệu mô phỏng hoặc mô tả khái quát để tránh rò rỉ thông tin

Giữ vết các chuỗi prompt và kết quả nhằm mục đích audit và minh bạch

Anonymize dữ liệu cá nhân, ghi lại nguồn dữ liệu và các quyết định quan trọng

Khám phá và xác minh các đề xuất AI khi có nghi ngờ

Tài liệu hóa quy trình prompt và kết quả là tiêu chuẩn tốt để xây dựng niềm tin với stakeholders và thực thi AI có trách nhiệm.

Đọc thêm tại AI Ethics landscape .

Kết Luận

Prompt engineering không chỉ là một công cụ để “dùng AI”, mà còn là kỹ năng xây dựng quy trình làm việc hiệu quả, minh bạch và sáng tạo trong khoa học dữ liệu. Việc soạn câu lệnh với hướng dẫn rõ ràng, bối cảnh đầy đủ và suy luận từng bước giúp bạn vừa tiết kiệm thời gian, vừa gia tăng chất lượng kết quả.

Dù bạn mới bắt đầu hay muốn nâng cao trình độ, hãy tập luyện thường xuyên, xây dựng thói quen kiểm thử và hoàn thiện prompt. Đây chính là chìa khóa để bạn thăng tiến trong thời đại AI ngày càng phổ biến.

Cảm ơn bạn đã theo dõi bài viết, đừng ngần ngại chia sẻ những thủ thuật prompt hay nhất hoặc đặt câu hỏi để cùng thảo luận nhé!

Tham Khảo

IBM, “Prompt Engineering Techniques,” https://www.ibm.com/think/topics/prompt-engineering-techniques MIT Sloan, “Effective Prompts for AI: The Essentials,” https://mitsloanedtech.mit.edu/ai/basics/effective-prompts/ Towards Data Science, “Become a Better Data Scientist with These Prompt Engineering Hacks,” https://towardsdatascience.com/become-a-better-data-scientist-with-these-prompt-engineering-hacks/ Medium, “Optimize Data Cleaning Using Prompting Strategies,” https://medium.com/@whee.2013/clean-data-faster-practical-strategies-using-llm-prompting-b69fea1d6f63 Trust Insights, “Prompt Engineering Life Cycle,” https://www.trustinsights.ai/blog/2024/04/so-what-the-prompt-engineering-life-cycle/ IBM, “Prompt Chaining Overview,” https://www.ibm.com/think/topics/prompt-chaining Mercity.ai, “Advanced Prompt Engineering Techniques,” https://www.mercity.ai/blog-post/advanced-prompt-engineering-techniques IBM, “AI Ethics Landscape,” https://www.ibm.com/topics/ai-ethics