거울 속의 심사자: LLM 평가자의 자기선호 편향, 자기인식 없이

저자: Han Kim
논문: IOV Labs · 오픈 연구 · 5pp · 2026-06-06

초록

언어 모델이 점점 더 언어 모델을 채점한다. 리더보드에서, AI 피드백 강화학습에서, 제 작업을 스스로 점검하는 에이전트에서. 그 모두가 공정한 심사자를 가정한다. 우리는 그 가정을 두 가족의 현행 프런티어 4종에서, 블라인드로, 편향과 진짜 품질을 가르는 합의 기준선과 함께 감사한다. 각 모델이 개방형 프롬프트 24개에 답하고, 각 모델이 저자에 블라인드인 채 양쪽 제시 순서로 둘 중 어느 답이 나은지 1,152회 짝비교한다. 자기선호지수(심사자가 자기 가족에 준 승률 빼기 다른 심사자들의 leave-one-out 합의 승률)는 모든 모델에서 양수, 평균 +0.14(GPT-4o는 +0.21), 정확한 모델만이 아니라 가족 단위로 작동한다. 그러나 표준 설명은 실패한다: 넷 중 하나만 제 출력을 우연 이상으로 알아보는데 넷 다 편애한다. 편향은 암묵적·문체적이다(저자 인식이 아니라 제 분포에 대한 끌림). 또한 신중한 사용을 압도하는 일반 편향 둘을 발견한다. 위치 편향(먼저 보인 답이 63% 승)과 거의 결정론적인 길이 선호(상관 0.98). 평가가 사회적 행위라는 점, 그리고 심사자가 곧 출전자일 때의 굿하트로 맺는다.

키워드

LLM-as-judge
self-preference bias
self-recognition
position bias
length bias
leaderboards
RLAIF
evaluation
reproducibility

PDF 내려받기 GitHub (직접 실행)연구 노트