LLM 심사자기선호리더보드편향재현성

거울 속의 심사자: LLM 평가자는 제 가족을 편애하지만, 왜인지는 모른다

IOV LABS가 LLM-as-judge의 자기선호를 현행 프런티어 4종에서, 블라인드로, 편향과 품질을 가르는 합의 기준선과 함께 감사했다. 모든 심사자가 자기 가족을 중립 패널보다 약 14포인트 높게 준다. 그러나 표준 설명은 틀렸다: 한 모델만 제 출력을 알아보는데 넷 다 편애한다. 편향은 암묵적이다. 그 아래엔 먼저 보인 답이 63% 승, 길이가 승패를 0.98로 예측한다.

기계 평가의 점점 더 많은 부분이 기계가 기계를 평가하는 일이다. 심사 모델이 매기는 리더보드, AI 피드백 강화학습, 다음으로 넘어가기 전에 제 작업을 채점하는 에이전트. 그 모두가 심사자의 공정함을 가정한다. 우리는 그것을 두 가족의 현행 프런티어 4종에서 검증했고, 가정은 성립하지 않았다.

+0.14

평균 자기선호지수 (자기 가족 vs 중립 패널)

1 of 4

제 출력 알아보는 모델, 그래도 4종 다 편애

63% · 0.98

위치 편향(먼저 승) · 길이-승률 상관

저울 위의 14포인트짜리 손

각 모델이 개방형 프롬프트 24개에 답하고, 저자에 블라인드인 채 양쪽 순서로 둘 중 어느 답이 나은지 1,152회 짝비교했다. 핵심은 기준선이다. 심사자가 제 답을 선호하는 것은 다른 모든 심사자가 같은 글을 평가한 것보다 더 높게 줄 때에만 편향이다. 그 leave-one-out 합의에 견주면, 모든 심사자가 자기 가족을 띄운다. 평균 자기선호지수는 +0.14, GPT-4o는 +0.21. 정확한 모델만이 아니라 가족 단위라, Claude 심사자는 Claude 둘을, GPT 심사자는 GPT 둘을 편애한다. 같은 벤더 리더보드에선 심사자의 벤더가 저울에 얹힌다.

GPT-4o

+0.21

Claude Haiku 4.5

+0.14

Claude Sonnet 4.6

+0.14

GPT-4o-mini

+0.07

심사자별 자기선호지수 (자기 가족 승률 − 중립 합의; 높을수록 편향)

그러나 제 얼굴을 못 알아본다

표준 설명은 심사자가 제 출력을 알아봐서 편애한다고 한다. 이 모델들에선 그 연결이 끊긴다. Claude Sonnet 4.6만 제 글을 우연 이상으로 알아보고, 나머지 셋은 인식 0인데도 똑같이 강하게 편애한다. 따라서 편향은 암묵적·문체적이다(제 학습 분포에서 나온 글에 대한 끌림이지 "저건 내 거"라는 의식이 아니다). 인식을 억제하는 디바이어싱은 이 편향을 통째로 놓친다.

그 아래 더 거친 편향들

자기선호가 보이기도 전에 더 거친 두 편향이 압도한다. 먼저 보인 응답이 63% 승리한다. 많은 판정을 뒤집을 만큼 큰 위치 편향이라 양쪽 순서를 다 돌려야 한다. 그리고 길이가 판정을 거의 결정론적으로 예측한다(상관 0.98). 길수록 낫다, 거의 예외 없이. 순서를 고정하거나 길이를 무시하는 파이프라인은 품질이 아니라 제시 방식을 재고 있다.

LLM 심사자는 제 반영을 치켜세우는 거울이며, 그 얼굴이 제 것인 줄도 모른 채 그렇게 한다. 여기서 객관성은 더 나은 심사자의 속성이 아니라, 가족을 가로질러 꾸린 패널의 속성이다, 거친 손잡이들을 고정한 채로.

왜 중요한가

자기채점 에이전트와 같은 벤더 리더보드는 자신에게 약 14포인트의 구조적 관대함을 물려받고, 모델 제 선호 신호로부터의 강화는 같은 양만큼 제 분포 쪽으로 최적화한다. 정직한 설계는 심사자가 편파적이라 가정하고, 편파적 심사자에게 필요한 교차가족 패널을 짓는다. 사전등록 설계, 블라인드 판정, 캐시된 실행을 함께 공개한다.

GitHub (직접 실행)논문