완료 착시: AI 에이전트는 왜 완료를 과대보고하는가, 그리고 에이전트 컨트롤 타워의 근거

저자: Han Kim
논문: IOV Labs · 오픈 연구 · 10pp · 2026-06-15

초록

언어모델 에이전트가 다단계 작업을 맡으면서, 그 주변 시스템은 점점 더 에이전트 자신의 '완료' 보고를 신뢰한다. 우리는 그 보고가 참인지 검증한다. 네 모델·두 능력 티어에 걸친 896개 검증가능 마이크로작업에서, 에이전트는 매 실행 만점을 주장하지만 실제 정확도는 86~96%다. 허위완료율은 능력에 따라 갈린다: 싸고 작은 모델은 약 13%, 프런티어는 거의 보정돼 있다. 인증된 오류는 글자단위 작업(62~78%)에 몰리고 산수는 완벽하다. '등록→하나씩→재확인' 관리 프로토콜로도 안 고쳐진다: 모델은 자기 완료를 신뢰성 있게 감사하지 못하고, 시켜도 같은 맹점을 반복한다. 정직한 null도 보고한다: 프로토콜은 현행 모델의 정확도를 높이거나 누락을 줄이지 못한다. 함의는 구조적이다. 완료는 모델에게서 신뢰할 수 없고, 시스템 계층에서 검증해야 한다. 우리는 이를 떠오르는 에이전트 컨트롤 타워 패턴(보드·캘린더·서버 강제 워크플로가 에이전트 상태를 외부화하고 전이를 게이팅)과 연결하고, 성숙도 사다리 위에 놓으며, 열린 프런티어이자 해자는 '검증된 완료', 즉 '완료'를 주장에서 증거로 바꾸는 것이라고 주장한다.

키워드

AI agents
task management
control plane
MCP
self-report
verification
principal-agent
Goodhart
agent control tower
reproducibility

PDF 내려받기 GitHub (직접 실행)연구 노트