[논문리뷰] RAPTOR: RECURSIVE ABSTRACTIVE PROCESSING FOR TREE-ORGANIZED RETRIEVAL

제목RAPTOR: RECURSIVE ABSTRACTIVE PROCESSING FOR TREE-ORGANIZED RETRIEVAL

일련번호10.48550/arXiv.2401.18059

분류cs.CL

게시일2024.01.31


1. TL;DR

  • 문서를 재귀적으로 클러스터링하고 요약하여 계층적 트리 구조를 구축함으로써, 세부 정보와 전역적 맥락을 동시에 검색하는 혁신적인 RAG 프레임워크

2. 해결하려는 문제 & 기존의 한계

  • 기존 접근법의 고질적 문제점: 대부분의 RAG 시스템은 짧고 연속적인 텍스트 청크만 검색하므로, 문서 전체에 흩어진 정보를 통합하거나 전체적인 테마를 파악해야 하는 질문(예: “이 소설의 주제는?”)에 답변하기 어렵습니다.
  • 핵심 질문 (Research Question): 어떻게 하면 정보의 손실 없이 긴 문서의 세부 사항과 고차원적인 추상화 정보를 동시에 인덱싱하고 검색할 수 있는가?

3. 제안 방법론 및 아키텍처

핵심 워크플로우

  1. Leaf Node 생성: 문서를 100토큰 단위의 청크로 분할하고 SBERT (multi-qa-mpnet-base-cos-v1) 로 임베딩합니다.
  2. Clustering (GMM + UMAP): 고차원 벡터의 유사도를 측정하기 위해 UMAP 으로 차원을 축소한 후, GMM (Gaussian Mixture Models) 기반의 Soft Clustering 을 수행합니다. (하나의 노드가 여러 클러스터에 속할 수 있어 주제의 중첩을 허용함).
  3. Summarization: 각 클러스터에 속한 텍스트를 gpt-3.5-turbo 를 사용하여 요약합니다.
  4. Recursive Building: 요약된 텍스트를 다시 임베딩하고 더 이상 클러스터링이 불가능할 때까지 상위 층위를 구축하여 트리를 완성합니다.
  5. Collapsed Tree Retrieval: 검색 시 트리의 특정 층위만 보는 것이 아니라, 모든 노드를 하나의 풀(Pool)로 펼쳐놓고 쿼리와 가장 유사한 상위 $k$ 개 노드를 선택합니다.

차별점

  • Soft Clustering: 단일 할당이 아닌 확률적 할당을 통해 텍스트의 다의성을 보존합니다.
  • Global-to-Local Context: 트리 구조 덕분에 검색 엔진이 질문의 성격에 따라 ‘요약본’과 ‘원문’을 적절히 혼합하여 LLM에 제공할 수 있습니다.

4. 실험 결과 및 성능

주요 벤치마크 결과

| 데이터셋 | 지표 | RAPTOR + GPT-4 | 기존 SOTA 대비 향상치 | | :— | :— | :— | :— | | QuALITY | Accuracy | 82.6% | +20.3% (vs CoLISA)| | QASPER | F1 Score | 55.7% | +1.8% (vs CoLT5 XL)| | NarrativeQA | METEOR | 19.1 | +8.0 (vs Retriever+Reader)|

효율성 (Efficiency)

  • 선형 확장성: 트리 구축 시간과 토큰 비용이 문서 길이에 비례하여 선형적으로 증가($O(N)$)합니다.
  • 빌드 속도: 약 80,000토큰의 문서를 처리하는 데 일반적인 소비자용 노트북(M1 Mac) 환경에서도 안정적으로 작동합니다.
  • 압축률: 요약 과정에서 자식 노드 대비 부모 노드의 텍스트 길이는 평균 28% 로 압축됩니다 (72%의 압축률).

5. 실무적 시사점 & 활용 가능성

  • 도메인 적용: 수백 페이지 분량의 법률 계약서, 기술 표준 문서, 장편 시나리오 분석 서비스에 즉시 적용 가능합니다.
  • 실무적 가치: 기존 RAG가 ‘검색어 매칭’ 수준에 머물렀다면, RAPTOR 는 AI가 문서 전체의 구조를 이해한 상태에서 답변하게 만듭니다. 특히 Multi-hop QA (여러 단락을 조합해야 풀 수 있는 문제)에서 압도적인 효율을 보여줍니다.

6. 재현 가능성 및 자원

  • 코드 공개 여부: 공개 완료 (논문 내 GitHub 링크 포함).
  • 필요 자원:
    • GPU 메모리: 추론 시에는 일반적인 임베딩 모델(SBERT) 수준의 메모리만 필요하지만, 트리 구축 시 LLM API(OpenAI 등) 비용이 발생합니다.
    • 자료: 고성능 임베딩 모델(SBERT)과 요약용 LLM(GPT-3.5 이상)이 필수적입니다.

7. 한계점 및 향후 연구

  • 방법론적 한계: 요약 단계에서 미세한 환각(약 4% 확률)이 발생할 수 있으나, 이는 상위 노드로 전파되거나 답변의 테마를 해칠 수준은 아닌 것으로 분석되었습니다.
  • 향후 방향: 요약 품질의 엄격한 검증 및 트리 탐색 알고리즘의 최적화를 통한 검색 속도 향상 연구가 필요합니다.



    Enjoy Reading This Article?

    Here are some more articles you might like to read next:

  • [논문리뷰] EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test
  • [논문리뷰] Mirage: The Illusion of Visual Understanding
  • [논문리뷰] DFlash: Block Diffusion for Flash Speculative Decoding
  • [논문리뷰] FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
  • AI 개념정리