RAG in 2025: From Static to Smarter Retrieval

23/1/2026
Retrieval-Augmented Generation (RAG) đã mở ra kỷ nguyên mới cho LLM, nhưng kiến trúc Naive RAG truyền thống – cắt nhỏ văn bản và tìm kiếm vector – đang nhanh chóng chạm tới giới hạn khi đối mặt với dữ liệu thực tế phức tạp. Làm thế nào để AI không chỉ 'tìm thấy' thông tin mà còn 'hiểu' cấu trúc, 'suy luận' đa bước và phản hồi với tốc độ thời gian thực? Bài viết này sẽ dẫn bạn đi sâu vào 4 kiến trúc tiên tiến đang định hình lại cuộc chơi: Hybrid, PageIndex, DeepRAG và REFRAG – hành trình từ tìm kiếm tĩnh đến tư duy tác tử.

1. Mở đầu: Tại sao RAG lại cần "Tiến hóa"?

Retrieval-Augmented Generation (RAG) đã trở thành tiêu chuẩn vàng để giải quyết hai điểm yếu chí mạng của Large Language Models (LLM): Tri thức lỗi thời Ảo giác (Hallucination).  Nó giúp mô hình "biết" về tri thức ngoài các dữ liệu nó được huấn luyện thông qua cơ chế tìm kiếm (retrieval) và sinh dựa trên các văn bản tìm kiếm được (generation)

Tuy nhiên, kiến trúc RAG cơ bản (Naive RAG) mà chúng ta quen thuộc trong năm 2023 – cắt nhỏ văn bản, vector hóa và tìm kiếm tương đồng – đang nhanh chóng chạm tới giới hạn.

Khi đối mặt với các tài liệu tài chính phức tạp (như SEC 10-K Filings) hay các câu hỏi đòi hỏi suy luận đa bước, Naive RAG thường thất bại: nó lấy thiếu ngữ cảnh, bị nhiễu bởi các đoạn văn không liên quan, hoặc đơn giản là quá chậm.

Bài viết này sẽ tổng hợp kết quả từ dự án khảo sát chuyên sâu về 4 kiến trúc RAG tiên tiến đang định hình lại lĩnh vực này: Hybrid, PageIndex, DeepRAG, và REFRAG.

2. Điểm Khởi Đầu: Giới hạn của Naive RAG

Naive RAG hoạt động dựa trên giả định rằng: "Nếu một đoạn văn bản có vector embedding gần giống với câu hỏi, nó sẽ chứa câu trả lời."

Giả định này gặp vấn đề khi:

  1. Mất cấu trúc: Việc cắt chunk (chunking) làm gãy các bảng biểu và mối liên hệ giữa các chương.
  2. Thiếu từ khóa chính xác: Vector search rất tốt về ngữ nghĩa nhưng tệ trong việc khớp chính xác mã số, tên riêng.
  3. Chi phí tính toán: Với context dài, độ trễ (Latency) tăng vọt.

Để giải quyết các vấn đề này, các kiến trúc thế hệ mới đã ra đời.

3. Hybrid RAG: Sức Mạnh của Sự Kết Hợp

Hybrid RAG là lời giải cho bài toán Recall (Độ phủ thông tin). Nó thừa nhận rằng không có một thuật toán tìm kiếm nào là hoàn hảo.

Cơ chế hoạt động

Thay vì chỉ dựa vào Vector Search, Hybrid RAG chạy song song hai luồng:

  • Dense Retrieval (Vector): Hiểu ngữ nghĩa, tìm kiếm ý tưởng bao quát.
  • Sparse Retrieval (Keyword/Graph): Tìm kiếm từ khóa chính xác hoặc duyệt đồ thị tri thức để tìm mối quan hệ thực thể.

Kết quả từ hai luồng này được hợp nhất để đưa ra danh sách tài liệu tốt nhất.

Hybrid Rag

4. PageIndex: RAG Dựa Trên Cấu Trúc (Structured RAG)

Nếu Hybrid RAG giải quyết việc tìm thấy thông tin, thì PageIndex giải quyết việc hiểu vị trí của thông tin đó. Đây là kiến trúc tối ưu cho các tài liệu dài và có tổ chức chặt chẽ.

Ý tưởng cốt lõi

Thay vì coi tài liệu là một danh sách các đoạn văn phẳng (flat list), PageIndex mô hình hóa tài liệu dưới dạng một Cây phân cấp (Hierarchical Tree)

Document -> Chapter -> Section -> Paragraph.

Chiến lược duyệt (Traversal)

  • Bottom-up (Vector-based): Tìm chi tiết trước, sau đó truy ngược lên cha để lấy ngữ cảnh.
  • Top-down (LLM Reasoning): Đây là điểm đột phá. LLM đóng vai trò như người đọc Mục lục. Nó bắt đầu từ gốc, suy luận xem chương nào liên quan, và đi sâu dần xuống (Beam Search). Cách này giúp mô hình hiểu được ngữ cảnh toàn cục (Global Context).

Page Index Traversal

Vectorless, OCR-less

Ngoài tính chất giữ nguyên cấu trúc tài liệu, PageIndex cũng giới thiệu 2 hướng tiếp cận rất đặc biệt.

  1. Vectorless: Không thực hiện vector làm mất chi tiết tài liệu mà giữ nguyên các nút là để cho vào context.
  2. OCR-less: Không thực hiện OCR ở quá trình inference mà dùng 1 VLM để đọc cả trang tài liệu liên quan.
    Page Index Ocr

5. DeepRAG: Từ Tìm Kiếm Tĩnh đến Suy Luận Tác Tử (Agentic)

DeepRAG đại diện cho tư duy System 2 Thinking trong AI: Chậm lại để suy nghĩ trước khi hành động.

Vấn đề

Các câu hỏi phức tạp (ví dụ: "So sánh doanh thu mảng Cloud của Google và Microsoft năm 2023") không thể trả lời bằng một lần search đơn giản.

Giải pháp

DeepRAG mô hình hóa quá trình RAG như một Quy trình ra quyết định (Markov Decision Process).

  1. Decomposition: Phân rã câu hỏi lớn thành các câu hỏi con.
  2. Atomic Decision: Tại mỗi bước, mô hình tự quyết định: "Tôi có cần search không? Hay tôi đã biết rồi?".
  3. Recursive Execution: Thực hiện tìm kiếm tuần tự và tổng hợp kết quả.

Huấn luyện

Quy trình training của DeepRAG khá phức tạp, nhưng bản chất lớn nhất là việc nó bắt mô hình phải học cách tự nhận thức về bản thân: Khi nào có thể sử dụng tri thức nội tại, khi nào cần đi hỏi, hỏi như thế nào?

Deep Rag Training

### Triển khai no-training

Trong dự án thực tế, chúng ta có thể mô phỏng DeepRAG mà không cần training bằng kiến trúc Thinker-Worker: Một LLM đóng vai trò lập kế hoạch (Thinker) và điều phối các công cụ tìm kiếm (Worker).

Thinker cần là một model có khả năng suy luận khá, để quyết định: Khi nào đã có đủ dữ liệu để trả lời (synthesize), khi nào cần truy xuất thêm thông tin bằng cách đặt sub-question (decompose), khi nào cần kết thúc (terminate)

Deep Rag Simply

6. REFRAG: Tối Ưu Hóa Hiệu Năng Bằng Nén (Compression)

Khi context quá dài, chi phí và độ trễ (Time-To-First-Token) tăng theo hàm bậc hai. REFRAG sinh ra để giải quyết bài toán hiệu năng này.

Ý tưởng gốc (The Original Concept)

Bài báo REFRAG đề xuất nén văn bản ngay từ đầu vào:

  • Sử dụng một Encoder nhẹ để nén chunk văn bản thành một Vector Embedding duy nhất.
  • Fine-tune LLM chính để nó có thể "đọc hiểu" trực tiếp vector nén này (như một "Siêu Token") mà không cần giải nén ra văn bản.

Refrag

Bạn có thể tưởng tượng nó như một quá trình dạy cho LLM hiểu được những "siêu token" đặc biệt, mỗi cái đại diện cho 1 chunk văn bản. Nhờ đó, lúc trả lời, thay vì LLM cần nguyên số lượng token của các chunk, nó chỉ cần hiểu được các siêu token với số lượng nhỏ hơn vài chục lần.

Ứng dụng thực tế (SimplifyREFRAG)

Để áp dụng tư duy này mà không cần tài nguyên training khổng lồ, chúng ta có thể triển khai phiên bản "Expand-on-Demand":

  • Sử dụng mô hình chuyên biệt (như BART) để tóm tắt (nén) các chunk văn bản.
  • LLM chính sẽ đọc các bản tóm tắt để trả lời nhanh. Nếu cần chi tiết, nó có thể yêu cầu "mở" bản tóm tắt ra để xem văn bản gốc.

7. Kết Luận: Bức Tranh Toàn Cảnh

Không có một kiến trúc RAG nào là "vạn năng". Sự lựa chọn phụ thuộc vào bài toán của bạn:

Kiến trúc Điểm mạnh Use case
HybridRAG Độ phủ context (recall) Dữ liệu hỗn hợp, tra cứu pháp lý
PageIndex (StructuredRAG) Ngữ cảnh toàn cục, giữ được chi tiết Tài liệu dài, có cấu trúc (Paper, Book)
DeepRAG Suy luận sâu, tự hiểu bản thân Câu hỏi phân tích, so sánh phức tạp (multi-hop)
REFRAG Tốc độ (Latency, TTFT) Ứng dụng real-time, chi phí thấp, tiết kiệm token

Tương lai của RAG không nằm ở việc nhồi nhét thêm dữ liệu (Long Context), mà nằm ở việc xử lý dữ liệu thông minh hơn (Smart Context) thông qua cấu trúc hóa và tư duy tác tử.

References

[1] PageIndex Blog

[2] DeepRAG Paper

[3] REFRAG Paper

 

 

Dropdown icon

Blog liên quan

Dropdown icon
Contact Us