본문 바로가기

AI

Gemini, GPT도 피할 수 없는 환각! '충분한 컨텍스트' 개념으로 본 LLM의 한계

Sufficient Context: A New Lens on Retrieval Augmented Generation Systems
"AI가 왜 엉뚱한 답을 할까?"에 대한 새로운 해답! 검색 증강 생성(RAG) 시스템의 오류 원인이 LLM 자체의 문제인지, 아니면 제공된 정보가 부족했기 때문인지 명쾌하게 분석한 최신 논문을 알기 쉽게 파헤쳐 봅니다.

요즘 AI 챗봇에게 질문했는데, 뭔가 이상하거나 교묘하게 틀린 답변을 받아본 적 없으신가요? 분명히 관련 자료를 참고해서 알려달라고 했는데도 말이죠. 저도 최근에 중요한 자료 조사를 맡겼다가, AI가 그럴듯하게 지어낸 답변을 내놓아서 하마터면 큰일 날 뻔했어요. 대체 왜 이런 일이 벌어지는 걸까요? AI가 똑똑한 척 거짓말을 하는 걸까요, 아니면 우리가 준 정보가 부족했던 걸까요? 😊

이런 답답함을 속 시원하게 긁어줄 흥미로운 논문이 최근 ICLR 2025에 발표되어 소개해드리려고 합니다. 바로 'Sufficient Context(충분한 컨텍스트)'라는 새로운 개념으로 이 문제를 분석한 연구인데요. 이 글을 끝까지 읽으시면 RAG 시스템의 작동 방식과 한계를 훨씬 더 깊이 이해하게 되실 거예요!

 

들어가기: RAG는 만능 해결사가 아니었다? 🤔

먼저 'RAG(Retrieval-Augmented Generation, 검색 증강 생성)'에 대해 간단히 짚고 넘어갈게요. RAG는 LLM(거대 언어 모델)이 답변을 생성할 때, 특정 문서나 데이터베이스에서 관련 정보를 실시간으로 검색해서 그 내용을 참고하여 더 정확하고 사실에 기반한 답변을 만들도록 돕는 기술이에요. 외부 최신 정보까지 활용하니 그냥 물어볼 때보다 훨씬 똑똑한 답변을 기대할 수 있죠.

하지만 현실은 녹록지 않습니다. 많은 연구에서 RAG 시스템이 참고 자료와 상관없는 내용을 말하거나(환각, Hallucination), 엉뚱한 정보에 혼란스러워하고, 긴 텍스트의 핵심을 제대로 파악하지 못하는 문제점들이 지적되어 왔어요. 논문의 저자들은 바로 이 지점에서 근본적인 질문을 던집니다. "이게 다 LLM이 정보를 제대로 활용하지 못해서일까? 아니면 애초에 검색된 정보 자체가 답변하기에 충분하지 않았던 건 아닐까?"

💡 알아두세요!
RAG 시스템의 오류는 크게 두 가지로 나눌 수 있어요. (1) **활용 실패**: LLM이 주어진 컨텍스트를 제대로 이해하거나 사용하지 못하는 경우. (2) **컨텍스트 부족**: 컨텍스트 자체에 질문에 답할 정보가 없는 경우. 이 논문은 이 둘을 구분하는 새로운 기준을 제시합니다.

 

새로운 렌즈, '충분한 컨텍스트(Sufficient Context)' 🔎

이 논문의 핵심은 바로 '충분한 컨텍스트'라는 개념을 정의하고, 이를 기준으로 RAG 시스템을 분석했다는 점입니다. 아주 간단해요.

  • ✅ 충분한 컨텍스트 (Sufficient Context): 제공된 컨텍스트(참고 자료) 안에 질문에 대한 명확한 답변을 구성할 모든 정보가 포함된 경우입니다.
  • ❌ 불충분한 컨텍스트 (Insufficient Context): 컨텍스트의 정보가 불완전하거나, 모순되거나, 결론을 내릴 수 없는 경우입니다.

예를 들어, "리아는 누구와 결혼했는가?"라는 질문에 대해 아래와 같은 컨텍스트가 주어졌다고 상상해보세요.

📝 예시로 보는 컨텍스트

(충분) 컨텍스트 A: "리아는 2020년 폴과 결혼했다... 그들은 최근 행사에서 행복해 보였다." → 답변에 필요한 정보가 명확히 있습니다.

(불충분) 컨텍스트 C: "리아는 2006년 탐과 결혼했다... 2014년에 이혼했다... 2018년에는 폴과 데이트를 했다." → 폴과 결혼했는지는 알 수 없습니다.

연구팀은 이런 기준으로 데이터를 나누기 위해, Gemini 1.5 Pro와 같은 고성능 LLM을 이용해 '오토레이터(AutoRater)'를 개발했습니다. 이 오토레이터는 각 질문과 컨텍스트 쌍을 보고 '충분함' 또는 '불충분함'으로 93%의 높은 정확도로 분류해냈다고 해요. AI가 AI를 평가하는 셈이죠!

 

RAG 시스템의 민낯: 놀라운 발견들 💥

'충분한 컨텍스트'라는 렌즈로 들여다본 RAG 시스템의 현실은 꽤나 충격적이었습니다. 그동안 우리가 막연하게 생각했던 것과는 다른 결과들이 나타났죠.

상황 논문의 주요 발견 시사점
컨텍스트가 '충분'할 때 답을 맞힐 확률이 높았지만, 여전히 상당수(15-25%)는 엉뚱한 답을 내놓았다. '모르겠다'고 하는 경우는 거의 없었다. 단순히 검색 품질을 높이는 것만으로는 환각 문제를 해결할 수 없다는 의미. LLM의 정보 이해 및 추론 능력이 관건.
컨텍스트가 '불충분'할 때 '모르겠다'고 답하기보다는, 아는 척하며 부정확한 정보를 만들어내는(환각) 경향이 훨씬 컸다. (특히 고성능 모델) 모델들이 모를 때 정직하게 모른다고 말하도록 훈련하는 것이 매우 중요함.
불충분한 컨텍스트 + 정답? 놀랍게도, 정보가 부족함에도 불구하고 정답을 맞히는 경우가 꽤 많았다 (35-62%). 모델이 가진 기존 지식(Parametric Knowledge)과 불충분한 컨텍스트가 결합하여 시너지를 내는 긍정적 효과도 있음.
⚠️ 주의하세요!
이 연구는 RAG 시스템의 성능 향상을 위해 단순히 검색 결과의 양을 늘리거나 관련성을 높이는 것만으로는 부족하며, LLM이 컨텍스트의 '충분성'을 스스로 판단하고 그에 맞춰 답변 전략을 바꾸는 능력이 필요하다는 것을 보여줍니다.

 

환각 줄이기 대작전: 선택적 생성 (Selective Generation) 💡

그렇다면 이 문제를 어떻게 해결할 수 있을까요? 연구팀은 '충분한 컨텍스트' 정보를 활용해 환각을 줄이는 '선택적 생성(Selective Generation)'이라는 새로운 프레임워크를 제안합니다.

아이디어는 간단합니다. 답변을 생성하기 전에 두 가지 신호를 함께 고려하는 것이죠.

  1. 신호 1: 컨텍스트 충분성 점수: 오토레이터가 판단한 '이 컨텍스트가 답변하기에 충분한가?'에 대한 점수.
  2. 신호 2: 모델 자신감 점수: LLM 스스로 '내가 이 답변에 대해 얼마나 확신하는가?'에 대한 점수.

이 두 가지 점수를 종합하여, 환각을 일으킬 가능성이 높은 상황(예: 컨텍스트는 불충분한데 자신감만 높을 때)이라고 판단되면 답변 생성을 멈추고 '모르겠다'고 말하도록 유도하는 것입니다. 이 방법을 적용했더니 Gemini, GPT, Gemma 모델에서 답변하는 경우의 정답률이 2~10%까지 향상되었다고 하니, 꽤 효과적인 접근법이죠?

 

💡

한눈에 보는 핵심 요약

✨ 새로운 관점: RAG 오류를 '컨텍스트 충분성'으로 분석!
📊 충격적 발견: 정보가 충분해도 틀리고, 부족해도 아는 척!
🧮 해결책 제시:
선택적 생성 = 컨텍스트 충분성 + 모델 자신감
👩‍💻 최종 목표: 더 정직하고 신뢰할 수 있는 AI로!

자주 묻는 질문 ❓

Q: RAG(검색 증강 생성)가 정확히 무엇인가요?
A: LLM이 답변을 할 때, 인터넷이나 특정 데이터베이스에서 관련 정보를 실시간으로 찾아서 그 내용을 근거로 답변을 생성하는 기술입니다. 덕분에 더 최신의, 사실적인 답변이 가능해집니다.
Q: '충분한 컨텍스트'라는 개념이 왜 중요한가요?
A: AI의 오류가 AI 자체의 문제인지, 주어진 정보의 한계인지를 명확히 구분할 수 있기 때문입니다. 이를 통해 문제의 원인을 정확히 진단하고 더 효과적인 해결책을 찾을 수 있습니다.
Q: 그럼 앞으로 LLM은 어떻게 발전해야 할까요?
A: 단순히 똑똑하게 많이 아는 것을 넘어, 자신이 아는 것과 모르는 것을 명확히 구분하고, 정보가 불충분할 때는 정직하게 '모르겠다'고 말할 수 있는 '메타인지' 능력을 갖추는 방향으로 발전해야 합니다.

오늘은 RAG 시스템의 성능을 '충분한 컨텍스트'라는 새로운 시각으로 분석한 흥미로운 논문을 살펴보았습니다. AI가 더 똑똑해지는 만큼, 우리는 그 작동 원리를 더 깊이 이해하고 현명하게 활용해야 할 것 같아요. 여러분은 AI의 환각 문제에 대해 어떻게 생각하시나요?  😊

 

본문에서 설명하고 있는 논문은 아래 링크에서 확인할 수 있습니다.

https://arxiv.org/abs/2411.06037

 

Sufficient Context: A New Lens on Retrieval Augmented Generation Systems

Augmenting LLMs with context leads to improved performance across many applications. Despite much research on Retrieval Augmented Generation (RAG) systems, an open question is whether errors arise because LLMs fail to utilize the context from retrieval or

arxiv.org