서울에 기반을 둔 AI 연구소 IOV LABS가 생성형 미디어의 품질 게이팅과 라우팅을 다룬 연구 노트를 29일 공개했다고 밝혔다. AI 이미지와 영상 도구를 개선하려는 시도는 대개 프롬프트를 손보거나 더 큰 모델로 바꾸지만, 이 노트는 다른 각도를 택했다. 코드에서 컴파일러가 하는 일처럼, 싸고 빠른 자동 검증기가 품질 검사기 역할을 대신할 수 있는지를 물었다. 연구소는 하나의 검증기가 두 역할을 동시에 한다고 본다. 약한 결과물을 걸러내는 게이트이자, 어떤 요청에 어떤 모델을 믿을지 학습하는 라벨이다.
배경
이 노트는 연구소의 프로그래밍 언어 0x-lang의 핵심 발상을 이어받았다. 거기서는 컴파일러가 모델을 정직하게 붙드는 장치로 쓰인다. 생성형 미디어에 적용하면 검사기는 더 이상 컴파일러가 아니라 프롬프트에 맞춰 채점되는 자동 품질 지표가 된다. 이번 연구는 연구소의 자체 실험이 아니라 공개된 연구를 종합한 것이다. 1차 자료 24건을 모으고, 추출한 주장 25개를 3표 중 2표가 동의해야 살아남는 적대 검증에 부쳤다. 25개 모두 살아남았다.
문헌이 실제로 말하는 것
첫 번째 발견은 경고다. 모든 종류의 프롬프트에서 인간의 판단을 잘 따라가는 단일 지표는 없으며, 가장 널리 쓰이는 CLIPScore가 그중 약한 축에 든다. 텍스트에서 이미지로 가는 생성에서 인간 평가와의 상관이 0에 가깝거나 음수로 나타났다. 노트는 그 원인을 CLIPScore가 단어 순서를 무시한 채 이미지를 단어 뭉치처럼 읽는 데서 찾는다. 더 강한 신호는 최근의 것들이다. 이미지가 프롬프트를 보여주는지 묻는 질문에 비전 언어 모델이 그렇다고 답할 확률로 정합도를 매기는 VQAScore는 8개 벤치마크에서 최고 성능에 도달했고 주요 연구소들이 채택했다. 학습형 보상 모델 LLaVA-Reward는 이미지당 약 0.35초로 가장 빠르다. 인간 판단에 가장 가까운 선택지는 멀티모달 모델을 심판으로 쓰는 방식으로, VIEScore 방법의 GPT-4o가 인간 상한 0.45에 대해 약 0.40의 상관에 이르렀다. 다만 속도와 비용을 치른다.
단일 지표로는 충분하지 않고, 가장 인기 있는 지표가 가장 약한 축에 든다. 진짜 게이트는 상보적인 신호를 결합한다.
게이트, 그리고 라우터
노트는 이어서 두 가지 쓰임을 설명한다. 게이트로 쓸 때 검증기는 시스템이 이미 생성한 작은 후보 묶음에서 최고를 고른다. 단 세 장 중 가장 높은 점수의 이미지를 고르는 것만으로 품질이 눈에 띄게 올랐다. 그러나 묶음은 작게 유지해야 한다. 개수를 키우면 보상 해킹을 부르고 결과가 오히려 나빠진다는 것이 증명됐기 때문이다. 라우터로 쓸 때는 같은 점수가 학습 라벨이 된다. 각 프롬프트를 9개 이미지 모델 중 하나로 보내도록 학습한 2025년 시스템은 어떤 단일 모델보다 평균 품질이 높았다. 연구소는 이 결과를 신중하게 읽는다. 그 향상이 더 큰 연산 예산, 그리고 자기참조적 지표와 얽혀 있다고 짚으며, 완성된 공식이 아니라 존재 증명으로 다룬다.
정직한 한계와 다음 단계
노트는 한계를 분명히 드러낸다. 보고된 수치는 흔히 모델 자신의 학습 분포나 단일 벤치마크에서 나온 것이고, 최상위 지표조차 가장 어려운 정합 사례의 45퍼센트 이상에서 여전히 실패한다. 그래서 검증기 점수는 정답이 아니라 유용한 참고다. 뒷받침하는 정리 하나는 언어 모델 연구에서 빌려와 이미지에 유추로 적용한 것이다. 연구소는 다음 실험을 빈 땅으로 지목한다. 이미지 모델이 한국어를 얼마나 정확히 렌더링하는지를 문자 오류율로 측정하는 재현 가능한 벤치마크로, 영어 중심 평가가 대개 건너뛰는 질문이다.
연구소의 평가
IOV LABS 설립자 김재환 대표는 이 노트가 특정 모델에 대한 판정이 아니라 하나의 발상을 영역 너머로 옮기려는 시도라고 말했다. 그는 "코드에서는 컴파일러가 옳고 그름을 판정하지만, 미디어에는 그런 절대 기준이 없다"며 "그래서 정직한 방법은 빠른 검증기를 싸고 잦은 조언으로 쓰고, 마지막 판단은 사람에게 남기는 것"이라고 설명했다. 그는 모든 주장을 적대 검증한 종합을 공개한 이유를 두고, 다른 이들이 마케팅이 아니라 검증된 토대 위에서 쌓아갈 수 있게 하기 위해서라고 밝혔다.
검증기 점수는 정답이 아니라 참고다. 사람은 계속 루프 안에 남는다.