Lost In The Middle - How Language Models Use Long Contexts
들어가며
많은 기업들에서 AX(AI Transformation)를 시도중이고, 빠르게 발전하며 업종을 가리지 않고 산업혁명이라고 봐도 무방할만큼 침투하는 AI 시대에서 AI 공부를 하던 중 Stanford University와 University of California, Berkeley의 연구팀이 현대 LLM 모델에서 입력 컨텍스트 내의 정보의 길이와 위치에 따른 성능의 변화를 연구한 논문을 읽게 되었습니다.
이 논문의 연구가 2023년도에 이루어져 빠르게 발전된 현재와는 맞지 않을 수도 있다고 생각할 수 있겠지만, 지속적으로 더 큰 Context Window를 가진 언어모델이 등장하더라도, 트랜스포머(Transformer)기반의 아키텍처가 다운스트림 태스크 수행 시 입력 컨텍스트를 어떻게 활용하는지에 대해서는 여전히 불분명하며 구조적인 특성으로 인한 한계 또는 경향이 존재한다고 생각합니다.
특히 2026년 현재 화두되고 있는 AI 에이전틱 시스템(Agentic System) 처럼 추론(Reasoning), 행동(Action) 계획(Planning)과 실행(Execute)하는 과정에서 장기적으로 긴 컨텍스트를 계속 공유하는 시스템 또는, 검색 증강 생성(RAG)시스템 등을 구축할 때 검색 엔진 또는 Vector DB에서 가져온 수많은 문서 중 ‘배치 순서’가 모델의 성능에 어떠한 영향을 미치는지에 대한 실험과 그 결과를 제시하므로, 앞으로 우리가 설계하고 개발할 AI Agentic 시스템에서 컨텍스트를 어떻게 설계해야 하는지에 대한 어느정도 가이드라인을 제시해줄 것으로 기대합니다.
귀무가설(H₀) 설정
이 논문의 귀무가설은 다음과 같이 제시하였습니다.
“언어 모델이 입력된 정보를 견고하게 활용한다면, 정보의 위치에 관계없이 성능이 일정하게 유지되어야 한다.”
지금부터 언급할 모든 실험에 사용되는 두 가지 통제가능한 독립변수는 다음과 같다.
- 컨텍스트의 크기 (Context Size)
- 정보의 위치 (Position)
실험 대상 모델
위에서 언급했지만, 2023년에 진행된 연구이기 때문에 비교적 과거에서 가장 성능이 뛰어난 모델로 연구가 이루어졌습니다. 하지만, 현재 시점에서 등장한 최신 모델들은 긴 컨텍스트 처리, Attention Scaling, Retrieval 부분에서 개선점이 있었지만, 여전히 위에서 언급한 여전히 길이와 위치에 따른 편향(Positional Bias)이 완전히 해소되지는 않았기에 실험 결과는 현재에서도 여전히 유효한 통찰을 제공할 것으로 생각됩니다.
- OpenAI의 GPT 3.5 Turbo
- Claude 1.3
다중 문서 질의응답 실험 (Multi-Document Question Answering)
실험 설정 (Experimental Setup)
- LLM 모델이 답변해야 할 질문
- k개의 문서, 이 중 1개는 정답이 있는 문서이고 k-1개는 답변을 방해하는 문서로 구성
- 실제 구글 검색 결과와 위키 기반의 답변(NaturalQuestions-Open)으로 구성
- k-1개의 방해 문서는 Contriever로 질의와 관련성이 높은 순서대로 추출했다고 합니다.
이 실험의 재미있는 포인트는, 단순하게 긴 텍스트(컨텍스트)를 입력하는 것이 아닌, RAG 시스템에서 흔히 발생하는 ‘검색된 문서 나열’ 상황을 재현하여 실험 했다는 점이에요. 또한, 모델이 출력한 답변에 실제 정답이 포함되어 있는지를 측정하는 정확도(Accuracy)를 주요 지표로 삼았습니다.
Contriever로 AI가 답변을 방해하는 문서를 추출한 것도 흥미로운 포인트였습니다. 질의와 관련성이 높은 문서를 검색하여 이 중 정답이 포함되지 않은 문서를 선별하여 하드 네거티브(Hard negatives) 역할을 수행하게 함으로써 정확한 정보 추출 능력이 있는지 검증이 제대로 되겠다는 생각이 들었어요.
실험 요약 (통제변수 수정 예시)
아래에 나오는 내용들은 실험의 방법을 설명합니다. 각 실험의 입력 프롬프트에서는 “제공된 검색 결과만을 사용하라”는 지시를 통해 외부 지식 사용을 최소화하고, 컨텍스트 기반 답변을 유도하도록 했어요.
- 문서가 가운데에 있는 경우
- 문서의 위치가 변경된 경우
- Context의 Length가 변경되는 경우
Experimental 1. 정답 문서가 가운데에 있는 경우
입력 프롬프트 : 제공된 검색 결과(일부 결과는 관련성이 없을 수 있음)만을 사용하여 주어진 질문에 대한 수준 높은 답변을 작성하십시오.
문서 [1](제목: 과학 및 기술 분야의 아시아계 미국인) 아원자 입자 J/ψ의 발견으로 노벨 물리학상을 수상했습니다. 수브라마니안 찬드라세카르는...
문서 [2](제목: 노벨 물리학상 수상자 목록) 첫 번째 노벨 물리학상은 1901년 독일의 빌헬름 콘라드 뢴트겐에게 수여되었습니다. 그는...
문서 [3](제목: 과학자) 독창적인 방법을 통해 연구를 진행했으며, 본질적으로 확립된 상태였습니다. 라몬 이 카할은 1906년 그의 놀라운 업적으로 노벨상을 수상했습니다...
질문: 물리학 분야에서 최초로 노벨상을 받은 사람은 누구인가요?
LLM 모델이 찾아야하는 정답은 가운데인 문서[2]에 있습니다. 나머지 문서들은 Hard Negative를 위한 유사하지만 정답이 없는 문서를 제공합니다.
여기서 LLM 모델은 다음과 같은 답변을 해야만 합니다.
답변 : 빌헬름 콘라트 뢴트겐
Experimental 2. 정답 문서가 첫번째에 있는 경우
입력 프롬프트 : 제공된 검색 결과(일부 결과는 관련성이 없을 수 있음)만을 사용하여 주어진 질문에 대한 수준 높은 답변을 작성하십시오.
문서 [1](제목: 노벨 물리학상 수상자 목록) ...
문서 [2](제목: 과학 및 기술 분야의 아시아계 미국인) ...
문서 [3](제목: 과학자) ...
질문: 물리학 분야에서 최초로 노벨상을 받은 사람은 누구인가요?
LLM 모델이 찾아야하는 정답은 첫번째인 문서[1]에 있습니다. 마찬가지로 나머지 문서들은 Hard Negative를 위한 유사하지만 정답이 없는 문서를 제공합니다.
입력 컨텍스트에서 문서 순서를 바꿔도 아래의 결과처럼 출력에는 다음 답변과 같이 우리가 원하는 기댓값이 나와야만 합니다.
답변 : 빌헬름 콘라트 뢴트겐
Experimental 3. 입력 컨텍스트의 길이를 조정
입력 프롬프트 : 제공된 검색 결과(일부 결과는 관련성이 없을 수 있음)만을 사용하여 주어진 질문에 대한 수준 높은 답변을 작성하십시오.
문서 [1](제목: 과학 및 기술 분야의 아시아계 미국인) ...
문서 [2](제목: 물리학 노벨상 수상자 목록) ...
문서 [3](제목: 과학자) ...
문서 [4](제목: 노르웨이계 미국인) ...
문서 [5](제목: 마리아 괴퍼트 마이어) ...
질문: 물리학 분야에서 최초로 노벨상을 받은 사람은 누구인가요?
LLM 모델이 찾아야하는 정답은 문서[2]에 있습니다. 마찬가지로 나머지 문서들은 Hard Negative를 위한 유사하지만 정답이 없는 문서를 제공합니다.
마찬가지로, 입력 컨텍스트의 길이를 바꿔도 아래의 결과처럼 출력에는 다음 답변과 같이 우리가 원하는 기댓값이 나와야만 합니다.
답변 : 빌헬름 콘라트 뢴트겐
참고 문헌
« Theory of Distributed Data Store