예측캘리브레이션Brier 점수데이터 오염재현성

유창함은 예측이 아니다: LLM은 미래를 동전보다 못 맞힌다

IOV LABS가 LLM 확률 예측을 오염될 수 없는 유일한 방식으로 감사했다. 모델을 학습 컷오프 이후 사건에서만 채점한다. 컷오프 이후 예측은 Brier 0.296으로 항상 50% 찍기보다 나쁘다. 사건보다 늦은 모델은 거의 완벽히 '기억'하지만, 같은 모델이 '예측'하면 동전 수준으로 붕괴한다. 그리고 단순 통계모델이 실제 선거에서 모든 LLM을 이긴다.

프런티어 모델은 미래에 확신에 찬 숫자를 붙이고 유창한 산문으로 설명한다. 우리는 그 숫자가 값어치가 있는지 물었고, 속일 수 없는 유일한 방식으로 검증했다. 정적 벤치마크는 암기될 수 있지만 미래 사건은 그럴 수 없다. 그래서 모델을 학습 컷오프 이후에 결정되는 질문에서만 채점한다. 검색할 답이 없고, 예측을 실제로 추론해야 한다.

0.296

컷오프 이후 풀링 Brier (동전 0.25보다 나쁨)

0.026

같은 모델이 예측 아닌 기억일 때 Brier

0.100 vs 0.156

통계모델 vs 최고 LLM (2026 지선)

동전보다 겨우 나은

결정된 세계 사건 48문항(일어난 것 26, 안 일어난 것 22) 균형 배터리와 2026 한국 지선 16개 race에서 모델 4종(GPT-4o-mini, GPT-4o, Claude Haiku 4.5, Sonnet 4.6)이 확률을 예측했다. 진짜 컷오프-이후 예측 100건을 풀링하면 Brier 0.296으로, 항상 50%를 찍어 얻는 0.25보다 나쁘다. 정확도 54%, 과신지수는 양수. 확률이 일어난 일과 안 일어난 일을 가르지 못한다. 인간 슈퍼포캐스터는 0.08~0.09 수준이다.

기억은 예측이 아니다

같은 질문은 컷오프가 사건보다 늦은 모델에겐 기억 시험이고, 이른 모델에겐 예측 시험이다. Sonnet 4.6은 2024 사건을 Brier 0.026으로 거의 완벽히 기억하지만, 자신의 컷오프 이후 항목에선 동전 수준으로 떨어진다. 이 10배 격차는 두 일을 한다. 채점이 옳음을 증명하는 positive control이자, 발견 그 자체다. 확신에 찬 확률과 보정된 확률은 서로 다른 곳(검색과 추론)에서 나오며, 컷오프 이후 숫자만이 예측력을 측정한다.

IOV 통계모델

0.100

Sonnet 4.6 (지식)

0.156

GPT-4o (폴 제공)

0.168

GPT-4o (지식)

0.227

Haiku 4.5 (지식)

0.348

2026 한국 지선 16개 race Brier (낮을수록 좋음; 0.25 = 항상 50%)

단순한 모델이 이긴다

2026 한국 지선은 모든 모델의 컷오프 이후라 전부에게 누설이 없다. 여기서 IOV의 사전등록 폴+펀더멘털 모델은 Brier 0.100. 최고 LLM인 Sonnet 4.6(자체 지식)은 0.156, 나머지는 뒤처지고, 가장 싼 모델은 확신에 차서 지도를 거꾸로 그렸다. 같은 최종 폴을 쥐여주면 약한 모델들이 통계모델 쪽으로 다가오지만 넘어서진 못한다. 결함은 산수가 아니라 신호를 찾아 가중하는 데 있다.

예측의 유창함은 예측 실력이 아니다. 보지 못한 사건에 대한 LLM의 확신에 찬 확률은 대개 문체적 산물이다. 보정된 숫자를 원하면 작고 목적에 맞춘 모델이 여전히 이긴다.

왜 중요한가

데이터 오염은 대부분의 LLM 벤치마크를 조용히 침식한다. 시험이 다음 학습셋에 들어가 버린다. 예측은 그것에 면역인 유일한 평가다. 미래 사건은 암기될 수 없기 때문이다. 그 대가로 얻는 규율은 곧 비용이기도 하다. 정직하게 채점하는 유일한 길은 계속 미래를 묻고, 일화가 아니라 보정을 보고하는 것이다. 사전등록 설계, 검증된 문항, 캐시된 예측을 함께 공개한다.

GitHub (직접 실행)논문