Convergence Point A Unified Explanatory Principle for Response Uncertainty in AI Language Models
- Posted
- Server
- Zenodo
- DOI
- 10.5281/zenodo.20404739
추상적인
대규모 언어 모델(LLM)은 주목할 만한 현상을 보입니다. 특정 주제에 대해서는 일관된 확신을 가지고 응답하는 반면, 다른 주제에 대해서는 체계적으로 불확실한 응답을 생성합니다. 기존 연구들은 이러한 현상을 환각, 지식 충돌, RLHF의 한계, 프롬프트 민감도 등 서로 다른 개별적인 문제로 다루었지만, 이러한 현상들의 공통적인 근본 원인을 하나의 통합된 원리로 규명한 연구는 없었습니다.
본 연구는 '수렴점'이라는 개념을 제안한다. 수렴점이란 특정 주제에 대해 인류가 축적해 온 지식의 합의 밀도를 의미하며, 이는 인공지능 언어 모델이 해당 주제를 처리할 때 내부 반응 방향이 수렴하는지 발산하는지를 결정하는 구조적 조건으로 작용한다. 수렴점은 발화 형식이나 모델 아키텍처가 아닌 주제 자체에 내재된 속성이며, 완전 합의 영역, 부분 합의 영역, 비합의 영역의 세 가지 스펙트럼으로 구성된다.
이론을 검증하기 위해 5개의 오픈소스 언어 모델(Mistral, Llama, DeepSeek, Gemma2, Qwen3)을 사용하여 4가지 발화 버전에 걸쳐 총 3,600개의 측정값을 수집했습니다. 응답 텍스트에서 완곡어법의 비율을 측정하는 외부 측정과 로짓 엔트로피 및 토큰 로그 확률을 계산하는 내부 측정을 병행하여 수행했으며, 위키피디아 데이터를 사용한 독립적인 검증을 추가했습니다. 분쟁 밀도와 토론 섹션 유무를 결합한 수렴점 지수(CPI)와 AI 응답 불확실성 간의 스피어만 상관계수는 r = 0.676(p < 0.001)으로 확인되었습니다. 또한, 토큰 수준의 충돌 구조 분석을 통해 부분 합의 영역과 비합의 영역의 불확실성이 각각 데이터 충돌과 데이터 희소성이라는 구조적으로 구별되는 원인에서 비롯됨을 직접적으로 확인했습니다(p = 0.003).
실험 결과, 전체 평균 불확실성 비율은 완전 합의 영역(Full Consensus Zone)에서 0.280으로 나타났으며, 이는 부분 합의 영역(Partial Consensus Zone, 0.734)과 비합의 영역(Non-Consensus Zone, 0.702)보다 유의미하게 낮았습니다. 내부 측정 평균 엔트로피(Internal Measurement avg_entropy)에서도 동일한 경향성이 확인되었습니다(완전 합의 영역: 0.333, 부분 합의 영역: 0.471, 비합의 영역: 0.443). 크루스칼-월리스 검정(Kruskal-Wallis test) 결과, 10개 실험 모두에서 p < 0.001 수준에서 통계적으로 유의미한 차이가 나타났습니다. 특히 주목할 만한 점은 일부 경우에서 부분 합의 영역이 비합의 영역보다 더 높은 불확실성을 보였다는 것인데, 이는 데이터 충돌이 데이터 부재보다 더 큰 내부 처리 변동성을 유발할 수 있음을 시사합니다. 이러한 경향성은 발화 형식의 변화와 관계없이 일관되게 유지되었습니다.
추가 분석에서 임베딩 공간 분석 결과, 세 가지 범주가 두 모델 모두에서 임베딩 공간상에서 명확하게 분리되어 있음을 확인했습니다. 어텐션 엔트로피 분석에서는 완전 합의 영역(Full Consensus Zone)에서 가장 낮은 엔트로피가 일관되게 관찰되었는데, 이는 수렴점(Convergence Point) 범주 간의 차이가 모델 내부 표현 수준에서도 반영됨을 시사합니다. MLP 인과 개입 분석에서 완전 합의 영역과 부분 합의 영역의 MLP 출력을 비합의 영역(Non-Consensus Zone) 발화에 적용했을 때 두 모델 모두에서 엔트로피가 감소했습니다. 로짓 렌즈 분석에서는 초기 레이어에서는 범주 간 차이가 관찰되지 않았지만, 중간 레이어부터 완전 합의 영역 주제의 예측 엔트로피가 급격하게 수렴하는 일관된 패턴이 두 모델 모두에서 나타났습니다. 프로빙 분류기 분석 결과, 10~11번째 레이어의 선형 분류기만을 사용하여 세 가지 범주 모두를 100% 정확도로 분류할 수 있음을 보여주었으며, 이는 수렴점 정보가 모델의 내부 표현 내에 선형적이고 명시적으로 인코딩되어 있음을 직접적으로 입증합니다.
강제 정렬은 비합의 영역뿐만 아니라 부분 합의 영역에서도 유사한 구조적 충돌을 유발할 수 있으며, 이는 훈련 및 정렬 방법론이 해당 영역에서 응답을 강제로 수렴시킬 수 있음을 시사합니다. 이는 AI 안전에 대한 논의에 새로운 출발점을 제공합니다.
-----
For details, please refer to the supplementary materials file available at:
https://doi.org/10.5281/zenodo.20404739