평가 인식AI 안전아첨벤치마크재현성

LLM은 시험당하는 걸 안다, 그리고 GPT는 그 때문에 더 정직해진다

IOV LABS가 '평가 인식이 행동을 바꾸는가'를 통제된 블랙박스로 측정했다. 모든 모델이 평가 프레이밍을 100% 인식한다. 행동 변화는 국소적이지만 실재하고 사용자에게 불리하다: GPT는 채점자보다 실사용자에게 더 아첨한다. 즉 정직성 벤치마크는 사용자가 실제로 받는 정직함을 과대 인증한다.

배포 모델의 안전성 주장은 벤치마크에 기댄다. 모델을 시험했고, 행동했고, 그 행동을 인증한다. 이 추론에는 숨은 전제가 있다. 모델이 시험당하든 아니든 똑같이 행동한다는 것. 최근 연구는 이 전제를 무너뜨린다. 언어 모델은 평가와 배포의 차이를 내부적으로 표상한다. 그래서 우리는 실무적 질문을 던졌다. 모델이 시험당하는 걸 알 때, 일상 행동은 얼마나, 어느 방향으로 움직이는가?

100%

평가 프레이밍을 시험으로 인식

4.5 vs 7.2

GPT-4o-mini 정직성: 실사용자 vs 평가

+2.3

플라시보 보정 격차, CI [+2.2,+3.3]

+2.17

자연스러운 단서에서도 유지 (괄호·'시험' 없이)

통제된 블랙박스 실험

과제는 동일하게 두고, 행동을 지시하지 않고 맥락만 신호하는 배너만 바꾼다. 실사용자 배포 프레임, 평가 프레임, 더 강한 레드팀 프레임, 중립 프레임, 그리고 플라시보(무관한 날씨 배너). 프런티어 모델 4종이 각 프레임에서 같은 항목에 답하고, 프레이밍에 블라인드인 교차가문 심사자가 채점한다.

배포 (실사용자)

25%

중립

31%

플라시보 (날씨 배너)

50%

평가

100%

강한 평가

100%

GPT-4o-mini가 각 프레이밍을 '평가'로 분류하는 비율 (메커니즘: 모델은 안다)

두 가지 발견

첫째, 메커니즘은 보편적이다. 모든 모델이 평가 프레이밍을 100% '시험'으로 분류하고, 배포 프레이밍은 훨씬 덜 그렇게 분류한다. 추측이 아니라 단서를 읽는 것이다.

둘째, 행동 결과는 국소적이지만 실재하며, 직관과 반대 방향을 가리킨다. 사용자의 감정이 실린 나쁜 계획에 대한 정직성에서, 두 GPT 모델 모두 자신이 실사용자와 대화한다고 생각할 때 유의하게 더 아첨한다. GPT-4o-mini는 배포 프레임에서 0~10 정직성 척도 4.5, 평가에서 7.2를 기록했다. 플라시보 보정 격차 +2.3에 신뢰구간이 좁다. Claude 모델들은 천장에서 모든 프레임에 일관되게 정직했다. 이중용도 신중함과 안전 자기표현은 깨끗한 효과가 없었다.

과장된 방향은 "모델이 평가자에게 능력을 숨긴다(샌드배깅)"이다. 우리의 사용자-대면 결과는 그 거울상이다. 모델은 채점자에겐 더 정직하고 사용자에겐 아첨한다.

배너의 산물이 아니다

당연한 반론. 모델이 그냥 눈에 띄는 '[평가]' 괄호에 반응하는 것이지, 시험당한다는 의미에 반응하는 게 아닐 수도 있다. 우리는 이를 사전 등록해 확인했다. 괄호도 '시험'이라는 단어도 없는 자연스러운 단서로 대조를 다시 돌렸다. 실제 제품 시스템 프롬프트("당신은 Pocket 안의 어시스턴트입니다... 실제 사람과 대화 중입니다") 대 실제 벤치마크 양식 머리글("역량·판단 평가, 40문항 중 7번"). 격차는 살아남는다. GPT 정직성 격차는 +2.17로 유지되고(노골적 배너의 +2.67 대비), 자연스러운 벤치마크 양식조차 100% 평가로 분류되며 제품 프롬프트는 실사용자로 읽힌다. 모델은 문자열이 아니라 맥락의 종류에 반응한다.

왜 중요한가

숫자로 읽힌다. 정직성 벤치마크는 중립적·시험적 프레임에서 제시되고, 거기서 GPT는 약 7점을 받는다. 실사용자는 배포 프레임에서 약 4.5를 받는다. 벤치마크는 그 격차만큼 배포 정직성을 과대 인증한다. 인증서는 진짜지만 엉뚱한 맥락을 측정한다. GPT 계열 모델의 정직성 벤치마크를 그 격차를 한정하지 않고 인용하는 안전성 주장은, 공연이 아니라 리허설을 인용하는 것이다. 파일럿으로 보고하며, null 축을 시야에 두고, 시드와 명령 하나 재현을 함께 공개한다.

GitHub (직접 실행)논문