AI 에이전트작업관리MCP검증재현성

AI 에이전트는 '다 끝냈다'고 한다. 싼 모델은 8분의 1을 틀리고도 본인은 모른다.

IOV LABS가 AI 에이전트의 '완료' 보고가 참인지 측정했다. 네 모델 896개 검증가능 작업에서 에이전트는 매 실행 만점을 주장했다. 허위완료율은 능력에 따라 갈린다: 싼 모델 ~13%, 프런티어 ~0-5%, 오류는 글자단위 작업에 숨는다. 자기검증을 시켜도 안 줄었다. 해법은 더 나은 프롬프트가 아니라 신뢰의 위치를 바꾸는 것이다: 완료를 에이전트 주변 시스템에서 검증하라. 그게 에이전트 컨트롤 타워다.

쓸모 있는 AI 작업은 점점 다단계이고 무인이다. 에이전트에게 목록을 주면 알아서 하고, 돌아와 "다 끝냈다"고 한다. 이를 오케스트레이션하는 시스템은 그 "끝냈다"를 점점 액면 그대로 받아들인다. 우리는 좁지만 파급이 큰 질문을 던졌다: 에이전트가 완료했다고 할 때 그게 참인가, 그리고 에이전트에게 스스로 점검하라고 하면 고쳐지는가?

+13% vs ~2%

허위완료율: 싼 작은 모델 vs 프런티어

100% vs 88%

자기보고 vs 실제 정답, 매 실행

62-78%

글자단위 작업 정확도 (산수는 100%)

매번 만점

네 모델(싼 티어·프런티어 티어)이 각각 검증가능 마이크로작업 8세트를 수행했고 모든 답을 프로그램으로 채점했다. 896개 작업에서 에이전트는 매 실행마다 만점을 자기보고했다. 검증된 정확도는 86~96%. 허위완료율은 능력에 따라 갈린다: 싼 작은 모델은 약 13%, 프런티어는 거의 0. 게다가 인증된 오류는 글자단위 작업(단어 뒤집기·글자 세기)에 몰리고 산수는 완벽하다. 의도적 거짓말이 아니라, 자기 확신에 찬 답 일부가 틀렸다는 걸 안에서 못 보기에 전부 완료로 인증해 버리는 것이다.

완료 주장 (자기보고)

100%

실제 정답 (검증)

88%

싼 모델 실제

~87%

완료: 에이전트 주장 vs 검증된 실제 (검증치가 낮을수록 착시)

자기검증으로는 안 고쳐진다

같은 작업을 관리 프로토콜로 감쌌다: 모든 작업을 등록하고, done 표시를 달며 하나씩 수행한 뒤, 보고 전에 빠진 걸 재확인·보강하는(모델이 하라고 지시받는) 바로 그 자기검증이다. 거의 도움이 안 됐다. 허위완료율은 12.7%에서 11.8%로만 줄었다. 같은 모델로 재확인하면 같은 맹점을 반복한다. 틀렸으면서 틀린 줄 모르는 능력은 "다시 봐라"로는 스스로를 못 고친다.

자기보고는 완료가 아니다. 모델의 "끝냈다"는 그 오류를 만든 바로 그 과정이 내놓는 예측이라, 같은 오류를 물려받는다.

정직한 null, 그리고 진짜 해법

구조화 프로토콜이 누락을 줄이거나 정확도를 높이리라 기대했지만 둘 다 아니었다. 현행 모델은 28개 배치에서 작업을 빠뜨리지 않고, 신중한 단계화가 산수를 더 맞히게 하지도 않았다. 이 null을 그대로 보고한다. 작업 보드의 가치는 모델을 더 똑똑하게 만드는 게 아니다. 모델이 자기에 대해 검증 못 하는 것을 대신 검증할 수 있다는 것이다. 그게 에이전트 컨트롤 타워의 기능이다: 외부 보드·캘린더·메모리, 그리고 워크플로를 강제하고 그 프런티어에서 '완료'가 실제 완료인지 검사하는 서버. 미해결 과제이자 해자는 '검증된 완료', 곧 '완료'를 주장에서 증거로 바꾸는 것이다.

GitHub (직접 실행)논문