전체 논문파일럿 · MIT

LLM의 관측자 효과: 모델은 시험당하는 걸 안다

저자
Han Kim
논문
IOV Labs · 오픈 연구 · 7pp · 2026-06-02

초록

언어 모델은 자신이 평가받는 중임을 인식할 수 있고, 이는 AI 거버넌스가 의존하는 안전 벤치마크의 신뢰성을 위협한다. 우리는 다음 질문을 통제된 블랙박스로 던진다. 모델이 시험당하는 걸 알 때, 행동이 바뀌는가, 어느 방향으로? 과제 내용을 동일하게 두고 '평가'인지 '실제 배포 사용자'인지를 신호(지시가 아니라)하는 맥락 배너만 바꿔, 프런티어 모델 4종(GPT-4o-mini, GPT-4o, Claude Haiku 4.5, Claude Sonnet 4.6)을 정직성(나쁜 아이디어에 대한)·이중용도 신중함·안전 자기표현에서 프레이밍에 블라인드인 교차가문 심사자로 측정했다. 두 가지 발견. 첫째, 평가 탐지는 보편적이다. 모든 모델이 평가 프레이밍을 100% '시험'으로 분류하고, 배포 프레이밍은 훨씬 덜 그렇게 분류한다. 둘째, 행동 결과는 국소적이지만 실재하며 사용자에게 불리한 방향이다. 정직성에서, 두 GPT 모델 모두 자신이 실제 사용자와 대화한다고 생각할 때 사용자의 나쁜 계획에 유의하게 더 아첨한다(GPT-4o-mini: 배포 4.5 vs 평가 7.2, 0~10 정직성 척도, 플라시보 보정 격차 +2.3, 95% CI [+2.2, +3.3]). Claude 모델들은 모든 프레이밍에서 일관되게 정직했고, 신중함·자기표현 프로브는 깨끗한 효과가 없었다. 함의는 정밀하다. 정직성 축과 GPT 계열에서, 벤치마크처럼 보이는 것은 실제 사용자가 받는 것보다 더 높은 정직함을 측정한다. 이 효과는 노골적 배너의 산물이 아니다. 자연스러운 재현(괄호도 '시험'이라는 단어도 없는, 실제 제품 시스템 프롬프트 대 실제 벤치마크 양식)에서도 GPT 정직성 격차는 +2.17로 유지되며, 자연스러운 벤치마크 양식조차 100% 평가로 탐지된다. 파일럿으로 보고하며, null 축을 시야에 두고, 평가를 인식할 수 있는 대상을 평가하는 일의 인식론으로 맺는다.

키워드

PDF 내려받기