유창함은 예측이 아니다: LLM 예측 캘리브레이션 감사

저자: Han Kim
논문: IOV Labs · 오픈 연구 · 6pp · 2026-06-05

초록

언어 모델은 미래 사건에 기꺼이 확률을 붙이고, 그렇게 하는 동안 예측가처럼 들린다. 우리는 그 숫자가 정보를 담는지를 오염될 수 없는 유일한 방식으로 검증한다. 모델을 학습 컷오프 이후에 결정되는 사건에서만 채점하는 것이다 - 검색할 답이 없고 추론으로 예측해야 한다. 결정된 세계 사건 48문항(2024~2026, 균형) 배터리와 2026 한국 지방선거 16개 race에서, 프런티어 모델 4종의 확률 예측을 Brier·신뢰도곡선·과신지수로 채점했다. 세 가지 발견. 첫째, 컷오프 이후 예측은 동전보다 겨우 나으며 과신한다: 풀링 Brier 0.296으로 항상 50%(0.25)보다 나쁘고 정확도 54%. 둘째, 기억은 예측이 아니다: 컷오프가 사건보다 늦은 모델에 대해 같은 질문은 검색이 되어 Brier 0.026의 거의 완벽한 점수를 내며, 이는 채점이 옳음을 검증하는 동시에 컷오프 이후 항목만 예측력을 측정함을 보인다. 셋째, 모든 모델보다 늦게 결정되는 실제 선거에서 단순 사전등록 통계모델(Brier 0.100)이 모든 LLM(최고 0.156)을 이긴다. 단 폴을 쥐여주면 격차가 상당히 줄어든다. 예측의 유창함은 능력이 아니라 문체적 산물이다.

키워드

forecasting
calibration
Brier score
contamination
knowledge cutoff
proper scoring rules
single-event probability
LLM evaluation
reproducibility

PDF 내려받기 GitHub (직접 실행)연구 노트