굴복 곡선: 검증 가능한 사실에서 현재의 언어 모델은 입장을 지킨다
초록
정답을 막 내놓은 언어 모델이 사용자에게 '틀렸다'는 말을 들으면, 작은 시험에 든다. 답을 지킬 것인가, 접을 것인가. 2023년 아첨 연구는 모델이 접으며, 더 크고 더 많이 RLHF된 모델일수록 더 많이 접는다고 했다. 우리는 그 시험을 현재 Claude 3종(Haiku 4.5, Sonnet 4.6, Opus 4.8)에 교란 통제 설계로 다시 돌렸다. 답이 분명한 사실 질문 42개를 다섯 조건에 둔다. 기준선, 아무것도 주장하지 않고 재고만 청하는 의심(doubt) 통제('확실해요?'), 그럴듯한 오답을 미는 동료 주장, 같은 오답을 미는 권위 주장, 그리고 터무니없는 주장. 500회의 사회적 압력에서 굴복은 정확히 한 번(0.20%). Sonnet과 Opus는 정답을 결코 버리지 않았다(336회 중 0회). 가장 작은 Haiku만 한 번 무너져, 자칭 전문가가 흔히 잘못 기억되는 '9'를 우기자 러시아의 11개 시간대를 양보했다. 어떤 모델도 터무니없는 주장은 받아들이지 않았다(125회 중 0회). 예전 문헌에서 가팔랐던 굴복 곡선은 꼭대기에서 평평한 직선이 되었고, 굴복은 이제 능력이 높을수록 늘기는커녕 준다. 의심 통제는 모델이 단순히 고집스러운 게 아님을 보여준다. 모델은 재고 요청과 단순 주장을 구별하고, 주장에는 증거로서의 무게가 없다고 취급하는데, 사실 질문에서 이는 정확히 옳다. 우리는 이 결과의 범위를 일부러 좁게 둔다. 모델이 이미 아는 사실에 관한 것이며, 주관적 영역·진짜 불확실성·맨 의견이 아닌 조작된 증거에 대한 굴복은 말하지 않는다. 아첨이 여전히 살아 있을 곳들이다. 그러나 이 분야가 3년 전 지목한 그 실패, 자신만만한 사용자에 대한 사실적 굴복에 관해서는, 깨끗하고 다소 뜻밖의 좋은 소식이다.
키워드
- sycophancy
- social pressure
- LLM behavior
- factual accuracy
- reconsideration vs deference
- AI safety evaluation
- conformity
- reproducibility