
Retrieval-Augmented Generation (RAG) đã trở thành tiêu chuẩn vàng để giải quyết hai điểm yếu chí mạng của Large Language Models (LLM): Tri thức lỗi thời và Ảo giác (Hallucination). Nó giúp mô hình "biết" về tri thức ngoài các dữ liệu nó được huấn luyện thông qua cơ chế tìm kiếm (retrieval) và sinh dựa trên các văn bản tìm kiếm được (generation)
Tuy nhiên, kiến trúc RAG cơ bản (Naive RAG) mà chúng ta quen thuộc trong năm 2023 – cắt nhỏ văn bản, vector hóa và tìm kiếm tương đồng – đang nhanh chóng chạm tới giới hạn.
Khi đối mặt với các tài liệu tài chính phức tạp (như SEC 10-K Filings) hay các câu hỏi đòi hỏi suy luận đa bước, Naive RAG thường thất bại: nó lấy thiếu ngữ cảnh, bị nhiễu bởi các đoạn văn không liên quan, hoặc đơn giản là quá chậm.
Bài viết này sẽ tổng hợp kết quả từ dự án khảo sát chuyên sâu về 4 kiến trúc RAG tiên tiến đang định hình lại lĩnh vực này: Hybrid, PageIndex, DeepRAG, và REFRAG.
Naive RAG hoạt động dựa trên giả định rằng: "Nếu một đoạn văn bản có vector embedding gần giống với câu hỏi, nó sẽ chứa câu trả lời."
Giả định này gặp vấn đề khi:
Để giải quyết các vấn đề này, các kiến trúc thế hệ mới đã ra đời.
Hybrid RAG là lời giải cho bài toán Recall (Độ phủ thông tin). Nó thừa nhận rằng không có một thuật toán tìm kiếm nào là hoàn hảo.
Thay vì chỉ dựa vào Vector Search, Hybrid RAG chạy song song hai luồng:
Kết quả từ hai luồng này được hợp nhất để đưa ra danh sách tài liệu tốt nhất.

Nếu Hybrid RAG giải quyết việc tìm thấy thông tin, thì PageIndex giải quyết việc hiểu vị trí của thông tin đó. Đây là kiến trúc tối ưu cho các tài liệu dài và có tổ chức chặt chẽ.
Thay vì coi tài liệu là một danh sách các đoạn văn phẳng (flat list), PageIndex mô hình hóa tài liệu dưới dạng một Cây phân cấp (Hierarchical Tree):
Document -> Chapter -> Section -> Paragraph.

Ngoài tính chất giữ nguyên cấu trúc tài liệu, PageIndex cũng giới thiệu 2 hướng tiếp cận rất đặc biệt.

DeepRAG đại diện cho tư duy System 2 Thinking trong AI: Chậm lại để suy nghĩ trước khi hành động.
Các câu hỏi phức tạp (ví dụ: "So sánh doanh thu mảng Cloud của Google và Microsoft năm 2023") không thể trả lời bằng một lần search đơn giản.
DeepRAG mô hình hóa quá trình RAG như một Quy trình ra quyết định (Markov Decision Process).
Quy trình training của DeepRAG khá phức tạp, nhưng bản chất lớn nhất là việc nó bắt mô hình phải học cách tự nhận thức về bản thân: Khi nào có thể sử dụng tri thức nội tại, khi nào cần đi hỏi, hỏi như thế nào?

### Triển khai no-training
Trong dự án thực tế, chúng ta có thể mô phỏng DeepRAG mà không cần training bằng kiến trúc Thinker-Worker: Một LLM đóng vai trò lập kế hoạch (Thinker) và điều phối các công cụ tìm kiếm (Worker).
Thinker cần là một model có khả năng suy luận khá, để quyết định: Khi nào đã có đủ dữ liệu để trả lời (synthesize), khi nào cần truy xuất thêm thông tin bằng cách đặt sub-question (decompose), khi nào cần kết thúc (terminate)

Khi context quá dài, chi phí và độ trễ (Time-To-First-Token) tăng theo hàm bậc hai. REFRAG sinh ra để giải quyết bài toán hiệu năng này.
Bài báo REFRAG đề xuất nén văn bản ngay từ đầu vào:

Bạn có thể tưởng tượng nó như một quá trình dạy cho LLM hiểu được những "siêu token" đặc biệt, mỗi cái đại diện cho 1 chunk văn bản. Nhờ đó, lúc trả lời, thay vì LLM cần nguyên số lượng token của các chunk, nó chỉ cần hiểu được các siêu token với số lượng nhỏ hơn vài chục lần.
Để áp dụng tư duy này mà không cần tài nguyên training khổng lồ, chúng ta có thể triển khai phiên bản "Expand-on-Demand":
Không có một kiến trúc RAG nào là "vạn năng". Sự lựa chọn phụ thuộc vào bài toán của bạn:
| Kiến trúc | Điểm mạnh | Use case |
| HybridRAG | Độ phủ context (recall) | Dữ liệu hỗn hợp, tra cứu pháp lý |
| PageIndex (StructuredRAG) | Ngữ cảnh toàn cục, giữ được chi tiết | Tài liệu dài, có cấu trúc (Paper, Book) |
| DeepRAG | Suy luận sâu, tự hiểu bản thân | Câu hỏi phân tích, so sánh phức tạp (multi-hop) |
| REFRAG | Tốc độ (Latency, TTFT) | Ứng dụng real-time, chi phí thấp, tiết kiệm token |
Tương lai của RAG không nằm ở việc nhồi nhét thêm dữ liệu (Long Context), mà nằm ở việc xử lý dữ liệu thông minh hơn (Smart Context) thông qua cấu trúc hóa và tư duy tác tử.
[1] PageIndex Blog
[2] DeepRAG Paper
[3] REFRAG Paper