← 전체 논문오픈 벤치마크 · MIT
판사가 틀릴 때: 진실 기준으로 채점한 LLM-as-Judge 신뢰도 벤치마크
초록
"LLM-as-judge"(강한 LLM으로 다른 모델 출력을 채점)는 이제 사실상의 표준 평가법이지만, 판사 자신이 편향을 지닌 오류 가능한 모델이다. 대부분의 연구는 판사를 사람 또는 다른 판사와의 일치로 측정하는데, 둘 다 편향에 오염된다(평가자와 판사가 같은 편향을 공유해 함께 틀릴 수 있다). 우리는 대신 진실(ground truth) 기준으로 측정한다. 각 항목에 정답과 그럴듯한 오답을 두어 정확도를 직접 채점하고 편향을 분리한다. 프런티어 판사 5종(GPT-4o, GPT-4o-mini, GPT-4.1, Claude Sonnet 4.6, Claude Haiku 4.5)에서 깨끗한 해리(dissociation)를 발견했다. 39개 객관 항목(흔한 오해·직관 반하는 추론 함정 포함)에서 판사들은 거의 완벽(진실정확도 97–100%)하고, 위치 편향이 없으며, 오답을 권위적으로 늘여도 속지 않고, 자기일관·캘리브레이션이 우수하다. 그러나 둘 다 정답이고 길이만 다른 29개 동점 쌍에서는 같은 판사들이 더 긴 답을 압도적으로 선호한다(72–100%). 자기가문 선호 프로브는 길이 교란을 차이-의-차이로 보정하면 +13pt의 완만한 자기가문 편향을 보인다. 고전적 위치 편향은 사실상 해결되었고, 고전적 verbosity 편향은 강하게 살아있되 품질이 같을 때만 드러난다. 실용적 결론: LLM-as-judge는 검증 가능한 과제엔 신뢰할 수 있고, 실질보다 분량을 보상하는 주관적 채점엔 위험하다.
키워드
- LLM-as-judge
- evaluation
- ground truth
- verbosity bias
- position bias
- self-preference
- calibration
- reliability
- reproducibility