[논문리뷰] RAPTOR: RECURSIVE ABSTRACTIVE PROCESSING FOR TREE-ORGANIZED RETRIEVAL

제목RAPTOR: RECURSIVE ABSTRACTIVE PROCESSING FOR TREE-ORGANIZED RETRIEVAL

일련번호10.48550/arXiv.2401.18059

분류cs.CL

게시일2024.01.31

1. TL;DR

문서를 재귀적으로 클러스터링하고 요약하여 계층적 트리 구조를 구축함으로써, 세부 정보와 전역적 맥락을 동시에 검색하는 혁신적인 RAG 프레임워크

기존 접근법의 고질적 문제점: 대부분의 RAG 시스템은 짧고 연속적인 텍스트 청크만 검색하므로, 문서 전체에 흩어진 정보를 통합하거나 전체적인 테마를 파악해야 하는 질문(예: “이 소설의 주제는?”)에 답변하기 어렵습니다.
핵심 질문 (Research Question): 어떻게 하면 정보의 손실 없이 긴 문서의 세부 사항과 고차원적인 추상화 정보를 동시에 인덱싱하고 검색할 수 있는가?

Leaf Node 생성: 문서를 100토큰 단위의 청크로 분할하고 SBERT (multi-qa-mpnet-base-cos-v1) 로 임베딩합니다.
Clustering (GMM + UMAP): 고차원 벡터의 유사도를 측정하기 위해 UMAP 으로 차원을 축소한 후, GMM (Gaussian Mixture Models) 기반의 Soft Clustering 을 수행합니다. (하나의 노드가 여러 클러스터에 속할 수 있어 주제의 중첩을 허용함).
Summarization: 각 클러스터에 속한 텍스트를 gpt-3.5-turbo 를 사용하여 요약합니다.
Recursive Building: 요약된 텍스트를 다시 임베딩하고 더 이상 클러스터링이 불가능할 때까지 상위 층위를 구축하여 트리를 완성합니다.
Collapsed Tree Retrieval: 검색 시 트리의 특정 층위만 보는 것이 아니라, 모든 노드를 하나의 풀(Pool)로 펼쳐놓고 쿼리와 가장 유사한 상위 $k$ 개 노드를 선택합니다.

Soft Clustering: 단일 할당이 아닌 확률적 할당을 통해 텍스트의 다의성을 보존합니다.
Global-to-Local Context: 트리 구조 덕분에 검색 엔진이 질문의 성격에 따라 ‘요약본’과 ‘원문’을 적절히 혼합하여 LLM에 제공할 수 있습니다.

도메인 적용: 수백 페이지 분량의 법률 계약서, 기술 표준 문서, 장편 시나리오 분석 서비스에 즉시 적용 가능합니다.
실무적 가치: 기존 RAG가 ‘검색어 매칭’ 수준에 머물렀다면, RAPTOR 는 AI가 문서 전체의 구조를 이해한 상태에서 답변하게 만듭니다. 특히 Multi-hop QA (여러 단락을 조합해야 풀 수 있는 문제)에서 압도적인 효율을 보여줍니다.

코드 공개 여부: 공개 완료 (논문 내 GitHub 링크 포함).
필요 자원:
- GPU 메모리: 추론 시에는 일반적인 임베딩 모델(SBERT) 수준의 메모리만 필요하지만, 트리 구축 시 LLM API(OpenAI 등) 비용이 발생합니다.
- 자료: 고성능 임베딩 모델(SBERT)과 요약용 LLM(GPT-3.5 이상)이 필수적입니다.

방법론적 한계: 요약 단계에서 미세한 환각(약 4% 확률)이 발생할 수 있으나, 이는 상위 노드로 전파되거나 답변의 테마를 해칠 수준은 아닌 것으로 분석되었습니다.
향후 방향: 요약 품질의 엄격한 검증 및 트리 탐색 알고리즘의 최적화를 통한 검색 속도 향상 연구가 필요합니다.