Bóc Tách Tiktokenizer: Cách OpenAI Tính Token "Kỳ Diệu" Thế Nào? (Phần 3)

Lê Lân

26/07/2025

Cách OpenAI Tính Số Lượng Token Trong Tiktokenizer – Phần 3: Phân Tích OpenSourceTokenizer Class

Mở Đầu

Trong thế giới xử lý ngôn ngữ tự nhiên, việc tính số lượng token chính xác đóng vai trò then chốt trong hiệu quả của các mô hình AI, đặc biệt là các mô hình do OpenAI phát triển. Trong loạt bài viết về Tiktokenizer, phần 3 này tập trung đi sâu vào cách mà OpenAI tính số lượng token thông qua lớp OpenSourceTokenizer . Bài viết sẽ giúp bạn hiểu rõ hơn về cấu trúc, các hàm chính và cách triển khai của lớp này trong code nguồn mở, từ đó hiểu được cách token được mã hóa và đếm một cách chính xác.

Chúng ta sẽ lần lượt phân tích class OpenSourceTokenizer trong dự án Tiktokenizer, tìm hiểu cách hoạt động của constructor, phương thức tĩnh load cũng như cách phương thức tokenize tạo ra kết quả đếm token. Nội dung sẽ đi kèm ví dụ và giải thích chi tiết để bạn dễ dàng áp dụng hoặc tham khảo trong các dự án của mình.

Phân Tích Lớp OpenSourceTokenizer Trong Tiktokenizer

Định Nghĩa Lớp Và Giao Diện Tokenizer

Lớp OpenSourceTokenizer nằm ở file tokenizer.ts dòng 82 và được định nghĩa như sau:

export class OpenSourceTokenizer implements Tokenizer {
  constructor(private tokenizer: PreTrainedTokenizer, name?: string) {
    this.name = name ?? tokenizer.name;
  }
  name: string;

  static async load(model: z.infer<typeof openSourceModels>): Promise<PreTrainedTokenizer> {
    ...
  }

  tokenize(text: string): TokenizerResult {
    ...
  }
}

OpenSourceTokenizer thực thi giao diện <u>Tokenizer</u> , trong đó yêu cầu định nghĩa thuộc tính name và phương thức tokenize :

export interface Tokenizer {
  name: string;
  tokenize(text: string): TokenizerResult;
  free?(): void;
}

Điểm quan trọng: Lớp này đóng vai trò bọc (wrapper) cho PreTrainedTokenizer do thư viện @xenova/transformers cung cấp, giúp chuẩn hóa các hàm tương tác với tokenizer.

Constructor – Khởi Tạo Đơn Giản, Tập Trung Vào Tên Tokenizer

constructor(private tokenizer: PreTrainedTokenizer, name?: string) {
  this.name = name ?? tokenizer.name;
}

Chức năng: Gán this.name dựa trên tên được truyền vào hoặc lấy từ thuộc tính của tokenizer .

Ghi chú: tokenizer là instance của lớp PreTrainedTokenizer , đại diện cho mô hình tokenizer đã được huấn luyện sẵn.

Phương Thức Tĩnh load – Nạp Tokenizer Từ Mô Hình Mở

static async load(model: z.infer<typeof openSourceModels>): Promise<PreTrainedTokenizer> {
  if (typeof window !== "undefined") {
    env.remoteHost = window.location.origin;
  }
  env.remotePathTemplate = "/hf/{model}";
  
  // env.useBrowserCache = false; // Dùng để bật/tắt cache trên trình duyệt
  
  const t = await PreTrainedTokenizer.from_pretrained(model, {
    progress_callback: (progress: any) => console.log(`loading "${model}"`, progress),
  });
  console.log("loaded tokenizer", model, t.name);
  return t;
}

Mục đích: Tải PreTrainedTokenizer tương ứng với mô hình được chỉ định.

Cơ chế: Sử dụng from_pretrained của PreTrainedTokenizer để tải tokenizer, đồng thời thiết lập một số biến môi trường cho việc truy cập dữ liệu tokenization.

Lưu ý: Phần progress callback giúp theo dõi tiến trình nạp tokenizer.

Hàm load rất hữu ích khi bạn cần sử dụng các mô hình tokenizer từ bộ OpenSource của Hugging Face hoặc tương tự, giúp tích hợp dễ dàng trong ứng dụng của bạn.

Phương Thức tokenize – Chuyển Văn Bản Thành Token Và Đếm

Phương thức tokenize trong lớp này được định nghĩa như sau:

tokenize(text: string): TokenizerResult {
  const tokens = this.tokenizer.encode(text);
  const removeFirstToken = (hackModelsRemoveFirstToken.options as string[]).includes(this.name);
  return {
    name: this.name,
    tokens,
    segments: getHuggingfaceSegments(this.tokenizer, text, removeFirstToken),
    count: tokens.length,
  };
}

Giải thích bước thực hiện:

Mã hóa văn bản đầu vào: this.tokenizer.encode(text) phân tách chuỗi đầu vào thành dãy token số.

Xử lý đặc biệt: Với một số mô hình có thuộc tính removeFirstToken , token đầu tiên có thể bị loại bỏ (đây là cơ chế hack dành cho vài trường hợp mô hình đặc biệt).

Trả về đối tượng: Bao gồm tên tokenizer, mảng token, các đoạn phân đoạn (segments) theo chuẩn Huggingface và tổng số token.

So sánh: Kết quả trả về có cấu trúc tương tự như lớp TiktokenTokenizer ở dòng 26 của cùng file, đảm bảo tính đồng nhất giữa các loại tokenizer.

Nắm rõ phương thức này giúp bạn hiểu quá trình từ văn bản thuần thành mã token, đồng thời hiểu được cách tokenizer tính và trả về số lượng token.

Ví Dụ Cụ Thể Về Việc Sử Dụng OpenSourceTokenizer

Đoạn Mã Sử Dụng load Và tokenize

async function example() {
  const tokenizerInstance = await OpenSourceTokenizer.load("gpt2");
  const tokenizer = new OpenSourceTokenizer(tokenizerInstance);
  const result = tokenizer.tokenize("Hello, this is a sample text!");
  
  console.log(result.count);    // Số lượng token
  console.log(result.tokens);   // Mảng token dưới dạng số nguyên
}

Ở đây, gpt2 là tên mô hình tokenizer.

Hàm load được gọi để tải tokenizer.

Sau đó tạo đối tượng OpenSourceTokenizer và gọi tokenize để lấy kết quả.

Ý Nghĩa Kết Quả Trả Về

Thuộc tính	Ý nghĩa
`name`	Tên tokenizer đang sử dụng
`tokens`	Mảng các token đã được mã hóa (dạng số)
`segments`	Các phân đoạn văn bản tương ứng (theo chuẩn Huggingface)
`count`	Tổng số token trong văn bản

Tổng Kết

Lớp OpenSourceTokenizer đóng vai trò như một cầu nối giữa thư viện transformer mở của Xenova và hệ thống Tiktokenizer của OpenAI.

Phương thức load giúp tải tokenizer từ mô hình pretrained một cách thuận tiện và cập nhật theo thời gian thực.

Phương thức tokenize sử dụng tokenizer đã tải để mã hóa văn bản thành token số, đồng thời cung cấp thông tin chi tiết về số lượng cũng như phân đoạn token.

Đặc biệt, OpenSourceTokenizer giữ nguyên cấu trúc trả về giống TiktokenTokenizer nhằm duy trì tính đồng bộ cho những hệ thống sử dụng đa dạng tokenizer.

Việc hiểu rõ cách OpenSourceTokenizer hoạt động cho phép bạn dễ dàng tùy biến, mở rộng và sử dụng hiệu quả các công cụ token hóa trong dự án liên quan đến AI và xử lý ngôn ngữ tự nhiên.

Tham Khảo

Mã nguồn OpenSourceTokenizer - tokenizer.ts dòng 82

Mã nguồn TiktokenTokenizer - tokenizer.ts dòng 26

xenova/transformers
trên GitHub

Ramu Narasinga, "Studying Codebase Architecture in Large Open-Source Projects" – ramunarasinga.com

ThinkThroo Challenges – Thử thách học tập dựa trên dự án mã nguồn mở