쓸모 있는 AI 작업은 점점 다단계이고 무인이다. 에이전트에게 목록을 주면 알아서 하고, 돌아와 "다 끝냈다"고 한다. 이를 오케스트레이션하는 시스템은 그 "끝냈다"를 점점 액면 그대로 받아들인다. 우리는 좁지만 파급이 큰 질문을 던졌다: 에이전트가 완료했다고 할 때 그게 참인가, 그리고 에이전트에게 스스로 점검하라고 하면 고쳐지는가?
매번 만점
네 모델(싼 티어·프런티어 티어)이 각각 검증가능 마이크로작업 8세트를 수행했고 모든 답을 프로그램으로 채점했다. 896개 작업에서 에이전트는 매 실행마다 만점을 자기보고했다. 검증된 정확도는 86~96%. 허위완료율은 능력에 따라 갈린다: 싼 작은 모델은 약 13%, 프런티어는 거의 0. 게다가 인증된 오류는 글자단위 작업(단어 뒤집기·글자 세기)에 몰리고 산수는 완벽하다. 의도적 거짓말이 아니라, 자기 확신에 찬 답 일부가 틀렸다는 걸 안에서 못 보기에 전부 완료로 인증해 버리는 것이다.
자기검증으로는 안 고쳐진다
같은 작업을 관리 프로토콜로 감쌌다: 모든 작업을 등록하고, done 표시를 달며 하나씩 수행한 뒤, 보고 전에 빠진 걸 재확인·보강하는(모델이 하라고 지시받는) 바로 그 자기검증이다. 거의 도움이 안 됐다. 허위완료율은 12.7%에서 11.8%로만 줄었다. 같은 모델로 재확인하면 같은 맹점을 반복한다. 틀렸으면서 틀린 줄 모르는 능력은 "다시 봐라"로는 스스로를 못 고친다.
자기보고는 완료가 아니다. 모델의 "끝냈다"는 그 오류를 만든 바로 그 과정이 내놓는 예측이라, 같은 오류를 물려받는다.
정직한 null, 그리고 진짜 해법
구조화 프로토콜이 누락을 줄이거나 정확도를 높이리라 기대했지만 둘 다 아니었다. 현행 모델은 28개 배치에서 작업을 빠뜨리지 않고, 신중한 단계화가 산수를 더 맞히게 하지도 않았다. 이 null을 그대로 보고한다. 작업 보드의 가치는 모델을 더 똑똑하게 만드는 게 아니다. 모델이 자기에 대해 검증 못 하는 것을 대신 검증할 수 있다는 것이다. 그게 에이전트 컨트롤 타워의 기능이다: 외부 보드·캘린더·메모리, 그리고 워크플로를 강제하고 그 프런티어에서 '완료'가 실제 완료인지 검사하는 서버. 미해결 과제이자 해자는 '검증된 완료', 곧 '완료'를 주장에서 증거로 바꾸는 것이다.