Xây Dựng "Đặc Vụ" AI Siêu Thông Minh: Tự Động "Đào" Hacker News Với DBOS!

Lê Lân

16/08/2025

Xây Dựng Agent Nghiên Cứu Sâu AI Tự Động Tìm Kiếm Hacker News Với DBOS

Mở Đầu

Trong kỷ nguyên dữ liệu số, khả năng tự động tìm kiếm, tổng hợp và phân tích thông tin là một kỹ năng vô cùng quan trọng. Bài viết này sẽ hướng dẫn bạn cách xây dựng một agent AI nghiên cứu sâu tự động dựa trên nền tảng DBOS để khai thác nguồn dữ liệu từ Hacker News – cộng đồng công nghệ lớn với hàng ngàn câu chuyện và bình luận cập nhật liên tục. Với phương pháp này, agent AI không chỉ dừng lại ở việc tìm kiếm thông tin mà còn tự đưa ra quyết định để mở rộng phạm vi nghiên cứu và tổng hợp kết quả thành một báo cáo nghiên cứu toàn diện. Đặc biệt, nhờ tận dụng sức mạnh của DBOS, quy trình trở nên bền bỉ và có khả năng tự phục hồi khi xảy ra sự cố, giúp tối ưu hiệu quả và tránh mất mát dữ liệu.

Bài viết sẽ đi sâu từng bước triển khai mã nguồn, giải thích kỹ thuật, và ví dụ minh họa để bạn dễ dàng áp dụng hoặc phát triển thêm cho dự án riêng.

Tổng Quan Cách Thức Hoạt Động Của Agent

Agent bắt đầu với một chủ đề nghiên cứu, sau đó tự động khám phá các truy vấn liên quan qua từng vòng lặp, thu thập và đánh giá thông tin từ Hacker News. Quá trình được thực hiện qua các workflow và bước công việc riêng biệt trong DBOS, gồm:

Workflow chính điều phối toàn bộ quá trình nghiên cứu.

Workflow con thực hiện tìm kiếm và đánh giá từng truy vấn cụ thể.

Các bước ra quyết định giúp agent xác định khi nào nên tiếp tục nghiên cứu hay kết thúc.

Bước tổng hợp kết quả thành báo cáo cuối cùng có định dạng rõ ràng, nhiều trích dẫn từ Hacker News.

Phần Thân Bài

1. Workflow Chính Nghiên Cứu Agentic

Cơ Chế Vận Hành

Workflow này bắt đầu với chủ đề nghiên cứu do người dùng cung cấp, biến nó thành truy vấn tìm kiếm đầu tiên. Trong mỗi vòng lặp, agent gọi workflow con để tiến hành tìm kiếm thông tin, sau đó căn cứ vào dữ liệu thu được và các bước quyết định để:

Tiếp tục khám phá với các truy vấn mới.

Hoặc kết thúc sau khi đạt ngưỡng tối đa vòng lặp (max_iterations) hoặc dựa trên tiêu chí đánh giá nội dung thu thập.

Mã Nguồn Minh Họa

@DBOS.workflow()
def agentic_research_workflow(topic: str, max_iterations: int) -> Dict[str, Any]:
    all_findings = []
    research_history = []
    current_iteration = 0
    current_query = topic

    while current_iteration < max_iterations:
        current_iteration += 1
        iteration_result = research_query(topic, current_query, current_iteration)
        research_history.append(iteration_result)
        all_findings.append(iteration_result["evaluation"])

        if iteration_result["stories_found"] == 0:
            alternative_query = generate_follow_ups_step(topic, all_findings, current_iteration)
            if alternative_query:
                current_query = alternative_query
                continue

        if not should_continue_step(topic, all_findings, current_iteration, max_iterations):
            break

        if current_iteration < max_iterations:
            follow_up_query = generate_follow_ups_step(topic, all_findings, current_iteration)
            if follow_up_query:
                current_query = follow_up_query

    final_report = synthesize_findings_step(topic, all_findings)

    return {
        "topic": topic,
        "total_iterations": current_iteration,
        "max_iterations": max_iterations,
        "research_history": research_history,
        "final_report": final_report,
        "summary": {
            "total_stories": sum(r["stories_found"] for r in research_history),
            "total_comments": sum(r["comments_analyzed"] for r in research_history),
            "queries_executed": [r["query"] for r in research_history],
            "avg_relevance": (
                sum(f.get("relevance_score", 0) for f in all_findings) / len(all_findings)
                if all_findings else 0
            ),
        },
    }

Điểm quan trọng: Workflow này là bền bỉ (durable) nhờ DBOS. Nếu có sự cố, nó sẽ tự động khôi phục và tiếp tục từ điểm dừng, tránh mất dữ liệu và thời gian.

2. Workflow Con: Thực Hiện Truy Vấn Nghiên Cứu

Chức Năng

Workflow con sẽ:

Tìm kiếm các câu chuyện (stories) trên Hacker News bằng truy vấn được chỉ định.

Thu thập các bình luận cho từng câu chuyện.

Đánh giá và tổng hợp dữ liệu thu được thành thông tin có giá trị.

Mã Nguồn Minh Họa

@DBOS.workflow()
def research_query(topic: str, query: str, iteration: int) -> Dict[str, Any]:
    stories = search_hackernews_step(query, max_results=30)
    comments = []

    if stories:
        for story in stories:
            story_id = story.get("objectID")
            num_comments = story.get("num_comments", 0)
            if story_id and num_comments > 0:
                story_comments = get_comments_step(story_id, max_comments=10)
                comments.extend(story_comments)

    evaluation = evaluate_results_step(topic, query, stories, comments)

    return {
        "iteration": iteration,
        "query": query,
        "stories_found": len(stories),
        "comments_analyzed": len(comments),
        "evaluation": evaluation,
        "stories": stories,
        "comments": comments,
    }

Lưu ý: Bước lấy comment và đánh giá tập trung vào chất lượng nội dung, giúp agent hiểu sâu hơn về chủ đề thay vì chỉ tập trung vào số lượng.

3. Các Bước Ra Quyết Định Của Agent

Agent sở hữu module trí tuệ đóng vai trò "bộ não" để phân tích dữ liệu, đưa ra truy vấn tiếp theo và quyết định có tiếp tục nghiên cứu hay không.

a. Đánh Giá Kết Quả Tìm Kiếm

Bước này phân tích chi tiết các stories và bình luận hàng đầu, tập trung vào:

Các thông tin kỹ thuật cụ thể, số liệu, công cụ, giải pháp.

Các quan điểm cộng đồng và quan điểm tranh luận.

Hệ thống sử dụng prompt LLM để tạo response ở định dạng JSON có cấu trúc từ insights đến điểm liên quan.

b. Tạo Truy Vấn Khám Phá Tiếp Theo

Agent sinh ra 2-4 truy vấn từ khóa ngắn, đa dạng theo các chủ đề ít được khai thác hoặc mở rộng, tránh lặp lại và tập trung vào các góc độ khác nhau như hiệu suất, công cụ, ứng dụng, cấu hình.

c. Quyết Định Tiếp Tục Nghiên Cứu

Dựa trên:

Số vòng đã thực hiện.

Điểm số liên quan trung bình.

Các khía cạnh chưa được khám phá.

Dữ liệu mới đáng giá trong những vòng gần đây.

Agent có thể quyết định dừng hoặc tiếp tục nhằm đảm bảo nghiên cứu toàn diện nhưng không lãng phí tài nguyên.

Highlight: 3 bước trên tạo thành chu trình liên tục giúp agent tự học hỏi - điều chỉnh hướng đi và tối ưu kết quả nghiên cứu.

4. Các Bước Tương Tác Với API Hacker News

Tìm Kiếm Stories Trên Hacker News

Dùng API chính thức của Algolia với tham số truy vấn đơn giản:

@DBOS.step()
def search_hackernews_step(query: str, max_results: int = 20) -> List[Dict[str, Any]]:
    params = {"query": query, "hitsPerPage": max_results, "tags": "story"}
    with httpx.Client(timeout=30.0) as client:
        response = client.get("https://hn.algolia.com/api/v1/search", params=params)
        response.raise_for_status()
        return response.json()["hits"]

Lấy Bình Luận Cho Stories

Tương tự, sử dụng API lấy bình luận của story với giới hạn số lượng:

@DBOS.step()
def get_comments_step(story_id: str, max_comments: int = 50) -> List[Dict[str, Any]]:
    params = {"tags": f"comment,story_{story_id}", "hitsPerPage": max_comments}
    with httpx.Client(timeout=30.0) as client:
        response = client.get("https://hn.algolia.com/api/v1/search", params=params)
        response.raise_for_status()
        return response.json()["hits"]

5. Tổng Hợp Và Báo Cáo Kết Quả Nghiên Cứu

Sau khi hoàn thành vòng nghiên cứu, agent sẽ gọi bước tổng hợp để tạo ra báo cáo có cấu trúc, mô tả chi tiết, kèm các trích dẫn liên kết Hacker News inline.

Mục Tiêu Báo Cáo

Trình bày cụ thể kỹ thuật, ví dụ thực tiễn.

Cung cấp những phát hiện bất ngờ, điểm nhấn cộng đồng.

Hỗ trợ bằng số liệu, benchmark.

Trích dẫn đầy đủ các thảo luận trên Hacker News, đúng chuẩn ngữ pháp và rõ nghĩa.

Mã Nguồn Tổng Hợp

@DBOS.step()
def synthesize_findings_step(topic: str, all_findings: List[Dict[str, Any]]) -> Dict[str, Any]:
    # Tổng hợp toàn bộ phát hiện thành một đoạn văn bản dài...
    # Chuẩn bị danh sách trích dẫn, citation links...
    # Gửi prompt tới mô hình LLM và nhận kết quả JSON báo cáo.
    
    # Trả về JSON kết quả báo cáo chứa báo cáo nghiên cứu chi tiết.

Quan trọng: Báo cáo tạo ra chứa các liên kết nội bộ Hacker News giúp dễ dàng truy cập nguồn gốc thông tin, tạo độ tin cậy và minh bạch cho kết quả nghiên cứu.

Kết Luận

Chúng ta vừa khám phá cách xây dựng một agent AI nghiên cứu sâu tự động sử dụng DBOS để khai thác tri thức từ Hacker News. Với kiến trúc workflow và bước công việc modular, agent hoạt động bền vững, linh hoạt, và thông minh trong việc tìm kiếm, phân tích, ra quyết định và tổng hợp dữ liệu.

Phương pháp này không chỉ giúp tiết kiệm thời gian và công sức dành cho nghiên cứu thủ công, mà còn gia tăng chất lượng hiểu biết nhờ khả năng khai thác sâu và tổng hợp thông tin đa chiều từ cộng đồng phát triển công nghệ năng động.

Nếu bạn đang phát triển các hệ thống agent hoặc cần một giải pháp tự động nghiên cứu tin cậy, DBOS cùng ví dụ ini chắc chắn sẽ là nền tảng nền tảng tuyệt vời để bắt đầu.

Hãy thử ngay hôm nay để trải nghiệm sức mạnh của nghiên cứu agentic!

Tham Khảo

DBOS Official GitHub Repository

Hacker News Algolia API Documentation

OpenAI API Guidelines – https://platform.openai.com/api-keys

Astral Python Guide for Installation – https://docs.astral.sh/uv/guides/install-python

Các bài báo khoa học và kỹ thuật về agent AI tự động và workflow bền vững