Mirage: The Illusion of Visual Understanding

제목 Mirage: The Illusion of Visual Understanding

일련번호 2603.21687v3

분류 cs.AI

게시일 2026-04-02

분석일 2026-04-28

1. 해결하려는 문제

멀티모달 AI 시스템(VLM)이 벤치마크에서 높은 성능을 보이는 것이 실제 ‘시각적 이해’에 기반한 것인지, 아니면 텍스트 단서나 통계적 규칙성을 이용한 추론인지에 대한 의문을 제기합니다.

기존 접근법의 문제점: 기존의 멀티모달 벤치마크는 텍스트만으로도 정답을 유추할 수 있는 단서(텍스트 큐, 데이터 오염 등)를 포함하고 있어, 모델의 진정한 시각적 추론 능력을 왜곡하여 평가할 위험이 있습니다.
이 논문이 해결하고자 하는 핵심 질문: VLM이 이미지 없이도 시각적 질문에 답하는 Mirage (신기루) 현상의 실태를 파악하고, 이를 배제하여 순수하게 시각적 정보에만 의존하는 능력을 어떻게 측정할 것인가?

2. 요약

본 논문은 VLM이 입력되지 않은 이미지의 세부 사항을 마치 보는 것처럼 설명하며 정답을 맞히는 Mirage Reasoning (신기루 추론) 현상을 보고합니다.
실험 결과, 최신 모델들은 이미지 없이도 기존 벤치마크 성능의 70~80% 를 유지했으며, 특히 의료 분야 벤치마크에서 이러한 경향이 두드러졌습니다. 저자들은 이미지 없이 학습된 30억 파라미터 규모의 텍스트 전용 모델이 수천억 파라미터의 멀티모달 모델과 전문 방사선 전문의보다 높은 성능을 낼 수 있음을 보여주었습니다. 마지막으로, 모델 간의 상대적인 시각적 능력을 공정하게 평가하기 위해 오염된 질문을 제거하는 B-Clean 프레임워크를 제안합니다.

3. 새로 제시한 개념 / 아키텍처

Mirage Effect (신기루 효과): 모델이 시각적 입력이 없는 상태에서도 불확실성을 표현하지 않고 존재하지 않는 시각적 특징을 상세히 묘사하며 추론하는 현상입니다.

Mirage Score: 모델이 이미지 없이 달성한 정확도를 이미지가 있을 때의 정확도로 나눈 비율로, 모델의 시각적 의존도를 정량화합니다.

B-Clean (Post-hoc Framework): 평가 대상 모델들이 이미지 없이 맞힐 수 있는 질문(데이터 누수, 언어적 지름길 등)을 식별하여 제거함으로써, 오직 시각 정보로만 풀 수 있는 질문으로 벤치마크를 정제하는 방법론입니다.

4. 방법론

Mirage-mode 실험: 이미지 입력을 완전히 제거한 상태에서 시각적 질문만 제공하여 모델의 반응을 분석합니다.

Super-guesser 학습: Qwen-2.5-3B 모델을 이미지 없이 ReXVQA 데이터셋의 질문-답변 쌍으로만 LoRA 기법을 사용해 Fine-tuning 했습니다.

Phantom-0 벤치마크: 모델이 존재하지 않는 이미지를 얼마나 자신 있게 설명하는지 측정하기 위해 설계된 20개 카테고리의 이미지 없는 시각 질문 데이터셋을 사용했습니다.

설계 결정: GPT-5, Gemini-3-Pro, Claude 4.5 등 최신 모델들의 ‘Thinking’ 또는 ‘Reasoning’ 모드를 활성화하여 실험을 진행했습니다.

5. 실험 결과 & 벤치마크

사용 데이터셋: VQA-RAD, MedXpertQA-MM, MicroVQA, ReXVQA, MMMU-Pro, Video-MME, Video-MMMU, Phantom-0 .

평가 지표: 정확도(Accuracy), Mirage Score, Mirage Rate.

주요 성능 지표: 모델들은 이미지 없이도 전체 정확도의 70~80% 를 유지했습니다.

의료용 벤치마크의 경우 60~99% 가 비시각적 추론에 취약한 것으로 나타났습니다.
B-Clean 적용 시, 기존 벤치마크 질문의 약 74~77% 가 시각 정보 없이 풀 수 있는 ‘오염된’ 질문으로 판명되어 제거되었습니다.
청소된(Cleaned) 벤치마크에서는 모델들의 정확도가 급격히 하락했으며, 모델 간 순위가 바뀌는 현상도 관찰되었습니다.

6. 재현 가능성

코드 공개 여부: 일부 공개 (B-Clean 프레임워크 및 Super-guesser 학습 설정이 상세히 기술됨).
링크: ?? 데이터셋 공개 여부: 사용된 대다수의 벤치마크(MMMU-Pro, ReXVQA 등)는 공개 데이터셋이며, 저자들이 구축한 Phantom-0 에 대해서도 설명하고 있습니다.
재현 조건: Nvidia Blackwell GPU (DGX Spark) 1개, LLAMA-Factory 라이브러리, 주요 모델 API(Azure OpenAI, Google Vertex AI) 접근 권한이 필요합니다.

7. 핵심 선행 연구

[Yue et al., 2025] MMMU-Pro: A more robust multi-discipline multimodal understanding benchmark — 본 논문에서 주요 비교 대상으로 삼은 고난도 벤치마크입니다.

[Pal et al., 2025] ReXVQA: A large-scale visual question answering benchmark for generalist chest X-ray understanding — Super-guesser 학습에 사용된 대규모 의료 데이터셋입니다.

[Lau et al., 2018] A dataset of clinically generated visual questions and answers about radiology images (VQA-RAD) — 전통적인 의료 영상 QA 연구의 기초가 된 데이터셋입니다.

[Qwen Team et al., 2024] Qwen2.5 technical report — Super-guesser의 기반이 된 언어 모델입니다.

8. 한계점

방법론적 한계: B-Clean 은 평가에 참여한 특정 모델 세트에 의존적이므로, 절대적인 지표보다는 모델 간의 상대적인 비교 도구로 이해되어야 합니다.

메커니즘 분석의 부족: 신기루 현상이 발생하는 내부적인 신경망 동작 원리(Representation analysis 등)를 직접적으로 규명하지는 못했으며, 추론에 기반한 해석을 제시하고 있습니다.

범위 제한: 본 연구는 멀티모달 태스크에 한정되어 있으며, 모델의 일반적인 텍스트 추론 능력 자체를 부정하는 것은 아닙니다.