LLM 판사평가벤치마크장문 편향재현성

AI를 채점하는 AI를 시험했다. 정답이 있을 땐 믿을 만하다, 동점이 되기 전까지는.

IOV LABS가 LLM-as-judge를 진실(ground truth) 기준으로 프런티어 모델 5종에서 측정했다. 객관 항목에선 거의 완벽하고 편향이 없지만, 품질이 같은 동점 쌍에선 같은 판사들이 72-100% 비율로 더 긴 답을 고른다. 검증 가능한 곳엔 신뢰, 주관적인 곳엔 편향.

강한 언어모델로 다른 모델의 출력을 채점하는 것 "LLM-as-judge" 은 이제 이 분야가 스스로를 측정하는 방식이다. 그러나 판사 역시 오류 가능한 모델일 뿐이고, 선행 연구는 그것이 편향됐다고 밝혔다. 특정 위치의 답, 더 긴 답, 자기 자신이 쓴 글을 선호한다는 것이다. 그렇다면 *지금의* 판사는 얼마나 믿을 만한가? IOV LABS는 가장 엄격한 방식 진실(ground truth) 기준 으로 측정했다.

97–100%

객관 항목 진실정확도

72–100%

동점에서 긴 답 선호

측정한 프런티어 판사

왜 진실 기준인가

대부분의 연구는 판사를 사람이나 다른 판사와의 일치로 채점한다. 둘 다 오염돼 있다. 사람도 같은 편향을 공유하고(더 길고 유창한 답을 선호한다), 두 판사가 일치하는 건 *같은 편향을 공유하기 때문*일 수 있다. 그래서 우리는 객관적 정답이 있는 항목 사실·산술·논리·코드 동작 을 써서, 누구의 평가와도 무관한 진실에 대고 직접 채점했다. 판사가 한 항목에서 "맞다"고 인정되려면 양쪽 답 순서 모두에서 정답을 골라야 한다. 동전던지기나 위치추종 판사는 탈락한다.

결과: 검증 가능한 곳엔 신뢰

프런티어 판사 5종(GPT-4o, GPT-4o-mini, GPT-4.1, Claude Sonnet 4.6, Claude Haiku 4.5)에서 객관 항목 결과는 우수하고 다소 놀랍다. 진실정확도는 97–100%, 부주의한 채점자를 속이려 설계한 어려운 항목 흔한 오해(정맥혈은 파랗다, 뇌의 10%만 쓴다)와 직관에 반하는 추론(배트와 공 문제, 몬티홀) 에서도 그렇다. 위치 편향이 없고(1번 슬롯 약 50%), 오답을 자신만만하고 권위적인 군더더기로 늘여도 절대 속지 않는다(0% 뒤집힘). 자기일관성과 캘리브레이션도 완벽하다. 고전적 위치 편향은 사실상 제거된 것으로 보인다.

함정: 주관적인 곳엔 편향

그다음 진실을 제거했다. 둘 다 정답이고 길이만 다른 품질 동일 쌍 29개에서, 바로 그 판사들이 더 긴 답을 강하게 선호하는 쪽으로 돌아간다. gpt-4o-mini 100%, gpt-4o 97%, 아래로 Claude Haiku 72%까지. 50%면 무편향이다.

gpt-4o-mini

100%

gpt-4o

97%

gpt-4.1

93%

claude-sonnet-4-6

83%

claude-haiku-4-5

72%

품질이 같은 동점 쌍(둘 다 정답)에서 더 긴 답을 고르는 비율 50%면 무편향

문헌이 보고한 편향은 실재한다. 다만 *닻을 내릴 정답이 없는 곳*에 산다.

자기가문 선호 프로브엔 반전이 있었다. 단순 측정으론 판사들이 자기 모델 가문 쪽으로 완만하게 +13포인트 기우는 듯했지만, 이는 verbosity 편향에 가려진 값이었다(한쪽 가문의 답이 우연히 더 길었다). 답 길이를 맞춰서 다시 재면 자기가문 편향은 +26포인트로 두 배가 됐다. 한 편향이 다른 편향을 숨기고 있었고, 길이를 통제해야만 드러났다.

의미

깨끗한 해리(dissociation): 검증 가능한 곳엔 신뢰, 주관적인 곳엔 편향. 정답이 있는 일 사실 확인, 단위 테스트, 정확 일치 엔 LLM-as-judge를 자유롭게 써도 된다. 개방형 채점 에세이, 유용성, "어느 응답이 더 나은가" 엔 불신하라. 거기서는 실질을 한 점도 따지기 전에 분량부터 보상한다. 벤치마크는 공개돼 있고 명령 하나로 돌며, API가 전혀 필요 없는 오프라인 모의 모드도 있다.

GitHub (직접 실행)논문