Hé lộ Bí Kíp 'Nâng Cấp' LLM: RAG với Nomic và OpenAI trên Rails

Lê Lân

20/07/2025

Retrieval-Augmented Generation (RAG): Tích Hợp Dữ Liệu Riêng Với Mô Hình Ngôn Ngữ Lớn

Mở Đầu

Retrieval-Augmented Generation (RAG) đang mở ra một bước tiến mới trong việc cải thiện khả năng trả lời của mô hình ngôn ngữ lớn (LLM) bằng cách kết hợp dữ liệu riêng biệt của bạn vào quá trình xử lý, mang lại các câu trả lời thực sự chính xác và phù hợp.

Trong thời đại trí tuệ nhân tạo phát triển nhanh chóng, nhu cầu tạo ra các hệ thống hỗ trợ trả lời tự động dựa trên dữ liệu mà người dùng có là rất lớn. Tuy nhiên, việc đào tạo lại các mô hình LLM hoặc tinh chỉnh phức tạp thường tốn kém và không linh hoạt. RAG giải quyết vấn đề này bằng cách đưa ngữ cảnh liên quan từ dữ liệu riêng của bạn vào trước khi tạo câu trả lời, giúp mô hình gia tăng hiệu quả mà không cần đào tạo lại.

Bài viết dưới đây sẽ hướng dẫn chi tiết cách tôi sử dụng mô hình embedding mở nguồn nomic-embed-text-v2-moe để thực hiện tìm kiếm ngữ nghĩa (semantic search) trong ứng dụng Rails, đồng thời vẫn dùng OpenAI để tạo câu trả lời thông minh.

1. RAG Là Gì? (What is RAG?)

Khái Niệm Cơ Bản

RAG (Retrieval-Augmented Generation) là kỹ thuật kết hợp bước truy xuất thông tin từ bộ dữ liệu có sẵn với khả năng sinh ngôn ngữ tự nhiên của mô hình ngôn ngữ lớn. Thay vì phải fine-tune mô hình phức tạp, chúng ta bổ sung kiến thức cần thiết ngay lúc tạo prompt.

Quy Trình Cơ Bản Của RAG

Người dùng đặt câu hỏi.

Mã hóa câu hỏi thành vector embedding bằng mô hình Nomic.

Tìm kiếm ngữ nghĩa trong cơ sở dữ liệu bằng PgVector.

Lấy về các đoạn dữ liệu liên quan nhất (relevant chunks).

Tạo prompt thông minh bằng cách kết hợp các đoạn này.

Gửi prompt sang OpenAI để sinh câu trả lời dựa trên ngữ cảnh.

Điểm mấu chốt: RAG không cần đào tạo lại mô hình, mà tận dụng dữ liệu riêng và ưu thế của từng phần trong hệ thống.

2. Công Nghệ Sử Dụng Trong Hệ Thống (The Stack)

Rails – Backend Framework

Rails chịu trách nhiệm xử lý logic, định tuyến, lưu trữ dữ liệu trong PostgreSQL đồng thời kết nối các thành phần khác.

Mô Hình Embed Của Nomic

Mô hình "nomic-embed-text-v2-moe" là open-source, đa ngôn ngữ, không giới hạn token và có hiệu suất cao trên nhiều bài toán.

Chuyên dùng để mã hóa văn bản thành vector embeddings có thể so sánh tương đồng.

FastAPI – API Serve Mô Hình Embed

Dùng Python và FastAPI để chạy mô hình embedding và trả về vector, làm thành API nội bộ thay thế OpenAI embeddings.

from fastapi import FastAPI, Request
from sentence_transformers import SentenceTransformer

app = FastAPI()
model = SentenceTransformer("nomic-ai/nomic-embed-text-v2-moe")

@app.post("/embed")
async def embed(req: Request):
    data = await req.json()
    input_text = data["input"]
    embedding = model.encode(input_text).tolist()
    return { "embedding": embedding }

PgVector – Lưu và Tìm Kiếm Vector

PostgreSQL mở rộng với PgVector để lưu trữ, truy vấn vector một cách hiệu quả.

Hỗ trợ phép toán cosine similarity giúp tìm văn bản có nghĩa gần giống nhau.

OpenAI GPT-4 / GPT-3.5

Dùng để tạo câu trả lời dựa trên ngữ cảnh do RAG cung cấp.

Đảm bảo chất lượng sinh ngôn ngữ tinh tế và tự nhiên.

3. Hướng Dẫn Chi Tiết Triển Khai RAG

🛠 Bước 1: Chạy Mô Hình Nomic Locally (Tùy Chọn)

Bạn có thể chạy mô hình embedding trên máy chủ của riêng mình để giảm chi phí gọi API và tăng tốc độ phản hồi.

📄 Bước 2: Chia nhỏ và Lưu trữ Dữ liệu

Chia nội dung lớn thành các đoạn nhỏ khoảng 100-300 từ.

Gán vector embedding từng đoạn và lưu vào PostgreSQL với cột vector.

class AddEmbeddingToDocuments < ActiveRecord::Migration[7.1]
  def change
    add_column :documents, :embedding, :vector, limit: 768 # Kích thước embedding của nomic v2-moe
  end
end

🤖 Bước 3: Mã hóa Câu Hỏi Người Dùng

Trong controller của Rails, lấy embedding từ API nội bộ:

def get_embedding(text)
  response = Faraday.post("http://localhost:8000/embed", { input: text }.to_json, "Content-Type" => "application/json")
  JSON.parse(response.body)["embedding"]
end

🔍 Bước 4: Tìm Kiếm Vector với PgVector

Tìm các đoạn dữ liệu gần nhất với câu hỏi:

Document.order("embedding <-> cube(array[?])", query_vector).limit(5)

Năm đoạn này sẽ làm ngữ cảnh cho câu hỏi.

🧾 Bước 5: Xây Dựng Prompt Thông Minh cho OpenAI

Kết hợp các đoạn được tìm thấy thành một prompt:

client.chat(
  parameters: {
    model: "gpt-4",
    messages: [
      { role: "system", content: "Bạn là trợ lý trả lời dựa trên ngữ cảnh đã cho." },
      { role: "user", content: build_contextual_prompt(user_input, top_chunks) }
    ]
  }
)

4. Vì Sao Chọn Nomic Cho Embeddings?

Ưu điểm	Mô tả
Open-source	Mã nguồn mở, dễ dàng tùy chỉnh và tự host
Hỗ trợ đa ngôn ngữ	Tối ưu cho nhiều ngôn ngữ khác nhau
Không giới hạn token	Không bị giới hạn độ dài văn bản như API đôi khi gặp phải
Hiệu suất cao	Được kiểm chứng trên các benchmark MTEB
Tránh vendor lock-in	Không bị phụ thuộc vào nhà cung cấp dịch vụ

Điểm nhấn quan trọng: Việc tách biệt bước embedding giúp hệ thống linh hoạt và mở rộng dễ dàng.

5. Tại Sao Vẫn Dùng OpenAI Cho Phần Sinh Ngôn Ngữ?

Chất lượng tạo văn bản vượt trội: OpenAI GPT-4/GPT-3.5 có khả năng tạo ra các câu trả lời tự nhiên, chính xác.

Tách biệt các giai đoạn embeddings và generation giúp dễ dàng hoán đổi hoặc nâng cấp từng phần.

Không cần phải chạy một mô hình quy mô lớn tinh vi tại chỗ, giảm chi phí và phức tạp hệ thống.

Kết Luận

RAG là một phương pháp hiệu quả để kết hợp sức mạnh của dữ liệu riêng và khả năng ngôn ngữ mạnh mẽ của các mô hình LLM. Sử dụng mô hình embedding mã nguồn mở như nomic-embed-text-v2-moe cùng với công cụ tìm kiếm vector PgVector giúp bạn xây dựng hệ thống trả lời thông minh, có thể tự host và tối ưu chi phí.

Bạn hoàn toàn có thể bắt đầu thử nghiệm RAG với stack Rails và FastAPI như hướng dẫn trên, mở ra nhiều tiềm năng phát triển ứng dụng AI linh hoạt, năng suất.

Hãy thử ngay hôm nay và trải nghiệm sự khác biệt mà RAG mang lại cho hệ thống của bạn!

Tham Khảo

Nomic Embed Text v2 MOE trên Hugging Face

Reimers, N., & Gurevych, I. (2020). Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks.

PgVector Documentation

OpenAI API Documentation: Chat completion

Lewis, M., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.

FastAPI Official Documentation: https://fastapi.tiangolo.com/

Tutorial về RAG trên Medium: https://towardsdatascience.com/retrieval-augmented-generation-rag-uses-embedding-search-with-openai-462ca0503fb8

June 10, 2024