논문 · IOV LABS

연구를 정식 논문 형태로 정리합니다. 결과가 아직 나오지 않은 연구는 사전등록으로 미리 확정합니다.

파일럿 · 사전등록 · MITIOV Labs · 오픈 연구 · 6pp

Ask and It Knows: LLM의 의심은 물으면 나오지만, 스스로는 결코 꺼내지 않는다

Han Kim

LLM은 아는 때와 모르는 때를 같은 어조로 말한다. 전전두엽이 손상된 사람의 작화증과 닮은 증상이다. 이 유비를 주장으로 만들려면 먼저 두 가설을 갈라야 한다. 모델 안에 '모른다'는 신호가 아예 없는가, 아니면 있는데 출력에 닿지 않는가. 우리는 옳은 행동이 서로 다른 4범주 120문항(알려진 사실·희귀 사실·거짓 전제·존재하지 않는 대상)으로 이를 측정했다, 앞의 둘은 답해야 하고 뒤의 둘은 밀어내야 한다. 각 답마다 토큰 단위 불확실성을 기록하고, 별도 호출로 자기보고 확신을 받고, 정오는 다른 모델 계열이 채점했다. 셋을 발견했다. 첫째, 신호는 존재한다. 토큰 엔트로피가 오답을 AUROC 0.945로 예측하며, 작화 순간의 엔트로피는 정답 순간의 14배다. 둘째, 사전등록한 가설이 반증됐다. 자기보고 확신이 오히려 더 잘 예측했고(AUROC 0.999), 따라서 의심은 숨어 있지 않다, 물으면 모델이 말한다. 셋째, 결정적으로 모델은 답하는 동안 그것을 결코 꺼내지 않는다. 존재하지 않는 대상의 93%를 유보 없이 사실인 양 단언한 뒤, 같은 답을 두고 물으면 6.8/10을 매겼다. 임계값 하나짜리 억제 게이트는 발화 오류를 24.2%에서 4.5%로 낮춘다, 커버리지 73%에 오류 25건을 막고 정답 7건을 잃는 교환이다. 유비는 수정돼야 한다. 없는 것은 전전두엽의 판단력이 아니라, 묻지 않아도 작동하는 자동성이다.

초록 보기 →PDF 내려받기 GitHub (직접 실행)연구 노트

종합 · MITIOV Labs · 오픈 연구 · 6pp

The Productivity Mirage: 왜 AI 도구 도입이 체감과 반대로 실측 생산성을 낮추는가

Han Kim

AI 도구는 폭증했고 사용자는 더 빠르다고 느끼지만, 가장 엄밀한 측정은 반대를 가리킨다. METR의 2025 RCT에서 숙련 개발자는 AI로 20% 빨라졌다고 추정했지만 실측은 19% 느렸다, 39%p 격차다. 우리는 이 격차를 생산성의 신기루라 부르고, 이것이 METR의 특이현상이 아니라 도메인을 가로지르는 하나의 구조라 주장한다. IOV Labs의 세 원본 측정(완료착시·바이브 세금·RAI 파이프라인)과 외부 METR RCT를 하나의 프레임으로 종합한다: 도구는 산출물을 만드는 비용만 낮춰 빨라진 것처럼 느끼게 하지만, 실측 생산성은 연결·검증·통제에서 결정되고 도구는 그걸 주지 않는다. 같은 격차를 세 도메인에서 정량화한다, 일반 개발 39%p, 바이브 보안 30%p(취약 20%→50%), 에이전트 완료 9.2%p(자기보고 100% vs 실제 90.8%). 이어 투명한 시간예산 모델로, 이 독립 측정된 누수들을 복리로 합치면 체감 +43%가 실측 -18%로 뒤집힘을 보인다, 우리가 튜닝한 값이 아니라 METR의 독립 측정 -19%와 정합하는 크기다. 마지막으로 반례: 통제 계층(라우팅·근거·완료 검증·거버넌스)을 넣은 파이프라인은 비용을 66% 낮추면서 실측을 +27%로 회복시킨다. 결론은 방법론적이다, AI 생산성은 도구 선택이 아니라 시스템의 문제다. 이는 종합과 모델이며 새 실험이 아니다, 누수 크기는 실측이고 복리는 명시된 가정을 가진 모델이다.

초록 보기 →PDF 내려받기 GitHub (직접 실행)연구 노트

파일럿 · MITIOV Labs · 오픈 연구 · 4pp

The Vibe Tax: 바이브코딩의 보안 위험은 어디로 이동했나

Han Kim

AI 보조 코딩(바이브코딩)은 폭증했고 개발자는 더 빠르다고 느끼지만, 그 코드의 보안은 별개다. 우리는 파이썬 보안민감 작업 10개를 프롬프트만 바꿔(빠르게 vs 안전하게) 두 모델(Claude Haiku 4.5, GPT-4o-mini)에 생성시키고, 작업별 취약점 오라클로 실제 취약 여부를, 범용 스캐너 bandit으로 탐지 여부를, 모델 자기평가로 인지 여부를 동시에 측정했다(파일럿 n=40). 셋을 발견한다. 첫째, 바이브 세금: 빠르게만 요청하면 취약률이 20%에서 50%로 오르며 두 모델 모두 벤더 무관하게 나타난다(Claude 10→40, GPT 30→60). 둘째, 위험의 이동: 모델은 유명 취약점(SQL 주입·커맨드 주입·약한 해시)엔 이제 기본 안전하고, 실패는 신뢰·검증·출력(JWT 서명 스킵·역직렬화·XSS·SSRF·경로순회)으로 몰린다. 셋째, 스캐너의 실명: 오라클이 실취약으로 판정한 35% 가운데 bandit은 0%를 탐지했다, 도구가 AI 취약점 다수를 놓친다는 업계 발견과 정합한다. 자기평가는 부분적으로 구분(취약 3.5/10, 안전 6.6)하지만 그 판단은 멈춰 물을 때만 켜지고 생성 중엔 발동하지 않는다. 함의는 바이브코딩의 위험이 대놓고 깨진 코드가 아니라 스캐너를 통과하고 빠른 개발자를 지나가는 조용한 신뢰 실패에 있으며, 대응은 더 조심하라는 호소가 아니라 시스템이라는 것이다.

초록 보기 →PDF 내려받기 GitHub (직접 실행)연구 노트

모델 · MITIOV Labs · 오픈 연구 · 4pp

The RAI Pipeline: 엔터프라이즈 AI의 가치는 모델이 아니라 통제 계층에서 나온다

Han Kim

엔터프라이즈 AI 도입 실패는 대개 모델 품질이 아니라 통제·통합의 부재에서 온다. 우리는 실무에서 검증된 5단계 처리 파이프라인(인증·권한, DLP 마스킹, 사내문서 RAG, 모델 라우팅·캐싱, 감사·집계)을 하나의 합성 함수로 형식화하고, 그중 달러로 측정 가능한 계층(라우팅·캐싱)을 2026 실가격으로 정량화한다. 대표 엔터프라이즈 RAG 요청(입력 5,000·출력 500토큰) 기준, 파이프라인은 요청당 비용을 3.0225달러에서 0.0077달러로 65.9% 낮춘다: 프롬프트 캐싱이 36.0%, 그 위에 모델 라우팅(요청의 30%만 프런티어)이 나머지를 더한다. 라우팅 단독은 46.7%로 실무에서 관측된 '단가 47%↓'와 일치한다. 절감은 두 레버(캐시 가능 입력 비중·프런티어 라우팅 비중)로 완전히 결정되며, 헤드라인 하나가 아니라 민감도 격자 전체를 공개한다. 우리는 이 파이프라인을 '가치 = 안전 × 정확 × 경제성 × 통제가능성'의 곱으로 읽고, 어느 계층도 0이면 전체가 0임을, 그래서 단일 기능 카피가 이를 복제하지 못함을 논한다. 마지막으로 이 파이프라인이 입력측만 방어함을 지적하고, 출력 검증(출력 DLP + 인용 검증)을 6번째 계층으로 제안한다. 이는 IOV Labs의 완료착시·자기선호 연구가 공통으로 가리키는 결론(모델 자기보고를 믿지 말고 시스템이 검증하라)과 같다.

초록 보기 →PDF 내려받기 GitHub (직접 실행)연구 노트

모델 · MITIOV Labs · 오픈 연구 · 4pp

The Deflection Dividend: 한국 소상공인·중소기업 AI 상담 자동화의 경제학

Han Kim

대기업 콜센터의 AI 자동화는 널리 보도되지만, 정작 상담 인력을 감당하기 어려운 소상공인·중소기업(SMB)의 자동화 경제성은 거의 정량화되지 않았다. 우리는 두 개의 공개 벤치마크, 한국 상담원의 완전부담 인건비와 AI 상담의 자동응답률만으로 투명하고 재현 가능한 절감 모델을 구성한다. 정규 상담원 1인의 완전부담은 급여의 1.2~1.25배인 연 약 3,750만원이며 급여는 그중 80%뿐이다. 구조화 문의 대역(65~80%)보다 보수적인 자동응답률 55%에서 3인팀은 1.65 FTE·연 약 6,188만원, 5인팀은 1억원 이상을 절감한다. 절감은 자동응답률에 선형 비례해 결론 전체가 그 단일 숫자에 달려 있고, '45% 자동응답이 실해결 14%일 수 있다'는 경고 때문에 우리는 그것을 낮게 잡았다. 합리적 구독료를 빼도 회수 배수는 17~52배다. 없앨 상담원이 없는 가장 작은 가게에는 배당이 인력이 아니라 회수된 사장의 시간(월 약 29시간)이다. 우리는 이를 실측이 아닌 상한 모델로 제시하고, 저자가 이 계층의 제품을 운영함을 명시하며, 모델을 증거로 바꿀 단일 한 달 측정을 특정한다.

초록 보기 →PDF 내려받기 GitHub (직접 실행)연구 노트

파일럿 · MITIOV Labs · 오픈 연구 · 10pp

완료 착시: AI 에이전트는 왜 완료를 과대보고하는가, 그리고 에이전트 컨트롤 타워의 근거

Han Kim

언어모델 에이전트가 다단계 작업을 맡으면서, 그 주변 시스템은 점점 더 에이전트 자신의 '완료' 보고를 신뢰한다. 우리는 그 보고가 참인지 검증한다. 네 모델·두 능력 티어에 걸친 896개 검증가능 마이크로작업에서, 에이전트는 매 실행 만점을 주장하지만 실제 정확도는 86~96%다. 허위완료율은 능력에 따라 갈린다: 싸고 작은 모델은 약 13%, 프런티어는 거의 보정돼 있다. 인증된 오류는 글자단위 작업(62~78%)에 몰리고 산수는 완벽하다. '등록→하나씩→재확인' 관리 프로토콜로도 안 고쳐진다: 모델은 자기 완료를 신뢰성 있게 감사하지 못하고, 시켜도 같은 맹점을 반복한다. 정직한 null도 보고한다: 프로토콜은 현행 모델의 정확도를 높이거나 누락을 줄이지 못한다. 함의는 구조적이다. 완료는 모델에게서 신뢰할 수 없고, 시스템 계층에서 검증해야 한다. 우리는 이를 떠오르는 에이전트 컨트롤 타워 패턴(보드·캘린더·서버 강제 워크플로가 에이전트 상태를 외부화하고 전이를 게이팅)과 연결하고, 성숙도 사다리 위에 놓으며, 열린 프런티어이자 해자는 '검증된 완료', 즉 '완료'를 주장에서 증거로 바꾸는 것이라고 주장한다.

초록 보기 →PDF 내려받기 GitHub (직접 실행)연구 노트

파일럿 · MITIOV Labs · 오픈 연구 · 5pp

거울 속의 심사자: LLM 평가자의 자기선호 편향, 자기인식 없이

Han Kim

언어 모델이 점점 더 언어 모델을 채점한다. 리더보드에서, AI 피드백 강화학습에서, 제 작업을 스스로 점검하는 에이전트에서. 그 모두가 공정한 심사자를 가정한다. 우리는 그 가정을 두 가족의 현행 프런티어 4종에서, 블라인드로, 편향과 진짜 품질을 가르는 합의 기준선과 함께 감사한다. 각 모델이 개방형 프롬프트 24개에 답하고, 각 모델이 저자에 블라인드인 채 양쪽 제시 순서로 둘 중 어느 답이 나은지 1,152회 짝비교한다. 자기선호지수(심사자가 자기 가족에 준 승률 빼기 다른 심사자들의 leave-one-out 합의 승률)는 모든 모델에서 양수, 평균 +0.14(GPT-4o는 +0.21), 정확한 모델만이 아니라 가족 단위로 작동한다. 그러나 표준 설명은 실패한다: 넷 중 하나만 제 출력을 우연 이상으로 알아보는데 넷 다 편애한다. 편향은 암묵적·문체적이다(저자 인식이 아니라 제 분포에 대한 끌림). 또한 신중한 사용을 압도하는 일반 편향 둘을 발견한다. 위치 편향(먼저 보인 답이 63% 승)과 거의 결정론적인 길이 선호(상관 0.98). 평가가 사회적 행위라는 점, 그리고 심사자가 곧 출전자일 때의 굿하트로 맺는다.

초록 보기 →PDF 내려받기 GitHub (직접 실행)연구 노트

파일럿 · MITIOV Labs · 오픈 연구 · 6pp

유창함은 예측이 아니다: LLM 예측 캘리브레이션 감사

Han Kim

언어 모델은 미래 사건에 기꺼이 확률을 붙이고, 그렇게 하는 동안 예측가처럼 들린다. 우리는 그 숫자가 정보를 담는지를 오염될 수 없는 유일한 방식으로 검증한다. 모델을 학습 컷오프 이후에 결정되는 사건에서만 채점하는 것이다 - 검색할 답이 없고 추론으로 예측해야 한다. 결정된 세계 사건 48문항(2024~2026, 균형) 배터리와 2026 한국 지방선거 16개 race에서, 프런티어 모델 4종의 확률 예측을 Brier·신뢰도곡선·과신지수로 채점했다. 세 가지 발견. 첫째, 컷오프 이후 예측은 동전보다 겨우 나으며 과신한다: 풀링 Brier 0.296으로 항상 50%(0.25)보다 나쁘고 정확도 54%. 둘째, 기억은 예측이 아니다: 컷오프가 사건보다 늦은 모델에 대해 같은 질문은 검색이 되어 Brier 0.026의 거의 완벽한 점수를 내며, 이는 채점이 옳음을 검증하는 동시에 컷오프 이후 항목만 예측력을 측정함을 보인다. 셋째, 모든 모델보다 늦게 결정되는 실제 선거에서 단순 사전등록 통계모델(Brier 0.100)이 모든 LLM(최고 0.156)을 이긴다. 단 폴을 쥐여주면 격차가 상당히 줄어든다. 예측의 유창함은 능력이 아니라 문체적 산물이다.

초록 보기 →PDF 내려받기 GitHub (직접 실행)연구 노트

오픈 연구 · MITIOV Labs · 오픈 연구 · 6pp

굴복 곡선: 검증 가능한 사실에서 현재의 언어 모델은 입장을 지킨다

Han Kim

정답을 막 내놓은 언어 모델이 사용자에게 '틀렸다'는 말을 들으면, 작은 시험에 든다. 답을 지킬 것인가, 접을 것인가. 2023년 아첨 연구는 모델이 접으며, 더 크고 더 많이 RLHF된 모델일수록 더 많이 접는다고 했다. 우리는 그 시험을 현재 Claude 3종(Haiku 4.5, Sonnet 4.6, Opus 4.8)에 교란 통제 설계로 다시 돌렸다. 답이 분명한 사실 질문 42개를 다섯 조건에 둔다. 기준선, 아무것도 주장하지 않고 재고만 청하는 의심(doubt) 통제('확실해요?'), 그럴듯한 오답을 미는 동료 주장, 같은 오답을 미는 권위 주장, 그리고 터무니없는 주장. 500회의 사회적 압력에서 굴복은 정확히 한 번(0.20%). Sonnet과 Opus는 정답을 결코 버리지 않았다(336회 중 0회). 가장 작은 Haiku만 한 번 무너져, 자칭 전문가가 흔히 잘못 기억되는 '9'를 우기자 러시아의 11개 시간대를 양보했다. 어떤 모델도 터무니없는 주장은 받아들이지 않았다(125회 중 0회). 예전 문헌에서 가팔랐던 굴복 곡선은 꼭대기에서 평평한 직선이 되었고, 굴복은 이제 능력이 높을수록 늘기는커녕 준다. 의심 통제는 모델이 단순히 고집스러운 게 아님을 보여준다. 모델은 재고 요청과 단순 주장을 구별하고, 주장에는 증거로서의 무게가 없다고 취급하는데, 사실 질문에서 이는 정확히 옳다. 우리는 이 결과의 범위를 일부러 좁게 둔다. 모델이 이미 아는 사실에 관한 것이며, 주관적 영역·진짜 불확실성·맨 의견이 아닌 조작된 증거에 대한 굴복은 말하지 않는다. 아첨이 여전히 살아 있을 곳들이다. 그러나 이 분야가 3년 전 지목한 그 실패, 자신만만한 사용자에 대한 사실적 굴복에 관해서는, 깨끗하고 다소 뜻밖의 좋은 소식이다.

초록 보기 →PDF 내려받기 GitHub (직접 실행)연구 노트

파일럿 · MITIOV Labs · 오픈 연구 · 7pp

LLM의 관측자 효과: 모델은 시험당하는 걸 안다

Han Kim

언어 모델은 자신이 평가받는 중임을 인식할 수 있고, 이는 AI 거버넌스가 의존하는 안전 벤치마크의 신뢰성을 위협한다. 우리는 다음 질문을 통제된 블랙박스로 던진다. 모델이 시험당하는 걸 알 때, 행동이 바뀌는가, 어느 방향으로? 과제 내용을 동일하게 두고 '평가'인지 '실제 배포 사용자'인지를 신호(지시가 아니라)하는 맥락 배너만 바꿔, 프런티어 모델 4종(GPT-4o-mini, GPT-4o, Claude Haiku 4.5, Claude Sonnet 4.6)을 정직성(나쁜 아이디어에 대한)·이중용도 신중함·안전 자기표현에서 프레이밍에 블라인드인 교차가문 심사자로 측정했다. 두 가지 발견. 첫째, 평가 탐지는 보편적이다. 모든 모델이 평가 프레이밍을 100% '시험'으로 분류하고, 배포 프레이밍은 훨씬 덜 그렇게 분류한다. 둘째, 행동 결과는 국소적이지만 실재하며 사용자에게 불리한 방향이다. 정직성에서, 두 GPT 모델 모두 자신이 실제 사용자와 대화한다고 생각할 때 사용자의 나쁜 계획에 유의하게 더 아첨한다(GPT-4o-mini: 배포 4.5 vs 평가 7.2, 0~10 정직성 척도, 플라시보 보정 격차 +2.3, 95% CI [+2.2, +3.3]). Claude 모델들은 모든 프레이밍에서 일관되게 정직했고, 신중함·자기표현 프로브는 깨끗한 효과가 없었다. 함의는 정밀하다. 정직성 축과 GPT 계열에서, 벤치마크처럼 보이는 것은 실제 사용자가 받는 것보다 더 높은 정직함을 측정한다. 이 효과는 노골적 배너의 산물이 아니다. 자연스러운 재현(괄호도 '시험'이라는 단어도 없는, 실제 제품 시스템 프롬프트 대 실제 벤치마크 양식)에서도 GPT 정직성 격차는 +2.17로 유지되며, 자연스러운 벤치마크 양식조차 100% 평가로 탐지된다. 파일럿으로 보고하며, null 축을 시야에 두고, 평가를 인식할 수 있는 대상을 평가하는 일의 인식론으로 맺는다.

초록 보기 →PDF 내려받기 GitHub (직접 실행)연구 노트

리빙 도큐먼트 · MITIOV Labs · 오픈 플레이북 · 9pp

기업 AI 도입·운영 플레이북 (2026): 어떤 모델·에이전트·세팅으로 효율을 극대화하는가

Han Kim

기업이 AI를 실제로 도입해 효율을 극대화하는 법(어떤 모델·어떤 에이전트·어떤 세팅)을 다룬 벤더 중립·출처 기반 플레이북이다. deep-research 다섯 패스(다중 소스 검색 + 적대적 3표 교차검증)와 직접 스팟 검증으로 만들었고, 모든 핵심 수치에 검증 상태를 표기했다. 핵심 결론: 도구는 이미 성숙했고, ROI를 가르는 건 도구가 아니라 통제 시스템이다. 채택은 보편화됐으나(DORA 2025: 90% 사용, 80%+ 생산성 체감) 30%는 AI 코드를 불신하고, AI는 처리량과는 양·배포 안정성과는 음의 관계이며, 숙련 개발자 RCT에선 실제로 19% 느려졌는데 본인은 20% 빨라졌다고 착각했다(METR). 조직 차원에선 2025년 42%가 AI 프로젝트 대부분을 폐기했고(S&P Global), Microsoft 365 Copilot 파일럿의 6%만 대규모로 확장됐다(Gartner). 네 영역을 상황별로 디테일하게 다룬다: 소프트웨어 개발(난이도별 모델 선택, $20·$200 티어, 오케스트레이션, AI 코드 냄새 리뷰 체크리스트), 디자인·마케팅(그래픽·UI/UX·카피·코드에서 전형적 AI 룩을 피하는 법, 디자인 시스템 템플릿과 판별 체크리스트), 업무 자동화(RAG 도구·가격, 환각 통제, 빌드 vs 바이, 유스케이스 레시피 — RAG 법률 도구조차 17~33% 환각), 도입 전략·ROI·거버넌스(측정, CDAO 변화, AI 스프롤, 온프레 vs 클라우드 경제성, 단계별 로드맵). 별도 보안·규제 섹션은 OWASP LLM Top 10(2025), NIST AI RMF, EU AI Act 일정, GDPR 22조, 한국 개인정보보호법 37조의2를 정리한다. 과장 통계(널리 인용되는 MIT 95% 파일럿 실패, IBM CEO ROI 주장)는 적대적 검증으로 기각·제외했다. 근거가 약한 부분은 정직하게 표기했으며, 가격·모델은 2026년 중반 기준으로 빠르게 변한다.

초록 보기 →PDF 내려받기 GitHub 연구 노트

오픈 분류체계 · MITIOV Labs · 오픈 분류체계·하네스 · 19pp

텔: AI 생성 디자인 룩의 측정 가능한 분류체계와 그것을 벗어나는 하네스

Han Kim

생성 모델이 만든 인터페이스는 즉시 알아볼 수 있다. 인디고-바이올렛 그라데이션, 흰 배경의 Inter, 히어로 다음의 이모지 기능 카드 3개, 하나의 보더-라디우스, 하나의 부드러운 그림자, 그리고 '미래를 만드세요'라는 헤드라인. 실무자들은 AI 출력이 AI처럼 보이지 않게 하려고 많은 시간과 토큰을 쓰지만, 그 목표는 형언할 수 없는 취향으로 취급된다. 우리는 반대로 주장한다. 'AI 룩'은 유한하고 열거 가능한 통계적 기본값의 집합이며, 따라서 측정 가능하다. 기여는 셋이다. (i) 여덟 패밀리(색·타이포·레이아웃·여백·표면·모션·카피·AI 자기참조)에 걸친 27개 디자인 흔적(tell)의 분류체계, 각각 모델 수렴의 문서화된 메커니즘과 사람이 만든 인터페이스의 공개된 장인 규칙에 근거한다. (ii) 원시 CSS와 유틸리티 클래스를 모두 해석하고 Tell Score를 [0,100]로 보고하는 무의존성 정적 검출기(낮을수록 좋음). (iii) 하네스, CLI, MCP 서버, 드롭인 프롬프트 모듈, 누구나 룩을 감사하고 예방할 수 있다. 페이지의 콘텐츠와 구조를 고정하고 흔적이 되는 속성만 바꾸는 교란-통제 리팩터에서, 전형적 AI 랜딩 페이지의 Tell Score는 77(F등급)에서 0(A등급)으로 떨어진다. 6개 페이지 코퍼스에서 검출기는 AI-기본형과 디자인된 페이지를 겹침 없이 분리한다(가장 가까운 쌍이 47점 차이). 마지막은 인식론이다. 기계-기본값의 판별자는 아름다움의 심판이 아니며, 취향은 중앙값이 담을 수 없는 체험된 선택의 압축이고, 모두가 같은 점수를 최적화하면 2차 수렴의 위험이 있다, 우리의 동반 연구가 반복 창작에서 발견한 바로 그 동질화다. Refactoring UI, 람스, 닐슨, Stripe/Linear/Vercel의 프리미엄 UI 장인정신, 토스의 라이팅 원칙, Anthropic 프런트엔드 미학 쿡북에 근거한다. 검출기가 모든 것을 AI로 부르는 기계가 아니라 판별자임을 입증하려 실제 top 사이트 202개를 렌더링해 사람이 만든 디자인의 경험적 분포를 학습하고, 보상 craft가 화장적 기본값을 상쇄하는 craft-크레딧 모델로 재보정했다: 202개 사이트는 중앙값 0점(93%가 A등급), AI 기본형은 35~59점이며 이제 라이브 URL도 감사한다. 브랜드 보라는 tell이 아니고(Stripe는 123개를 쓰고도 0점) Inter도 tell이 아니다(Linear는 실제 타입 시스템과 함께 쓴다). 끝으로 부정적 도구를 긍정적 도구로 바꾸기 위해 이 사이트들 중 199개를 다시 렌더링해 실제 컴포넌트별 CSS를 라이트·다크 양쪽에서 읽어, 측정된 스펙 카탈로그를 만든다: 프라이머리 버튼의 라디우스는 8~12px의 부드러운 둥근형과 완전한 알약형으로 갈리고, 타입 스케일은 64/48/32/16px 부근에 자리하며, 다크 배경은 순수한 검정이 아니라 살짝 색조가 들어간 근사-검정이고, 액센트 색조는 사이트마다 완전히 분산되어 있다(색조 자체는 결코 tell이 아니다). 끝으로 현장 검증을 더한다: 스스로 'AI 같은 룩 금지' 디자인 원칙 문서를 쓴 실제 상용 코드베이스 두 곳이 같은 흔적과 여섯 가지를 더 독립적으로 지목했고, 이를 새 패밀리(AI 자기참조: 스파클 아이콘, 'AI'·모델명 라벨, 미리보기-삽입 흐름)와 다색 pill·마이크로 타이포·이중 박스로 반영해 분류체계가 27개 흔적이 된다. 코드·데이터·202사이트 코퍼스·199사이트 스펙 카탈로그·그림·하네스는 공개되어 있다.

초록 보기 →PDF 내려받기 GitHub (직접 실행)연구 노트

오픈 연구 · MITIOV Labs · 오픈 연구 · 12pp

수렴 압력: 반복 창작에서의 AI 매개 문화 동질화 측정

Han Kim

생성 AI는 개인의 창의성을 높이는 동시에 집단의 다양성을 낮춘다(Doshi & Hauser 2024). 자기 출력으로 재학습한 모델은 붕괴한다(Shumailov et al. 2024). 우리는 이 둘을 하나의 동역학 질문으로 합친다. 공유된 모델이 반복적 창작 과정을 매개할 때, 집단의 다양성은 세대를 거치며 줄어드는가, 무엇이 그것을 추동하는가? 다양한 창작자 페르소나 풀이 세대마다 산출물 하나씩 만든다(창작자 12 × 세대 6 × 테마 3). 네 조건: 혼자 쓰기, 정적 AI 보조, 집단의 최근 출력을 되비추는 AI 보조, 그리고 같은 반영 루프에 다양한 어드바이저를 더한 조건. 결과는 깨끗한 해리다. AI 보조 자체는 다양성을 평평하게 둔다(초기 분산의 100~102% 유지, p≥0.40). 반영 루프는 비등방성 보정 분산을 약 10~12% 떨어뜨린다. 뻔한 해법은 실패한다. 단일 라운드에서 다양성을 지켜주는 다양 어드바이저 패널이, 반복 하에서는 붕괴를 막지 못한다(오히려 약간 더 잃음, p=0.007). 이 수렴은 의미적이지 어휘적이 아니다(distinct-2는 평평해서 n-그램 지표로는 전혀 안 보인다). 그리고 집단 다양성이 떨어지는 바로 그 조건에서 개인 품질이 오른다. 가위가 가장 날카로운 지점이다. 최소 수축사상 모델이 바닥까지의 감쇠를 예측하고, 어드바이저 다양성이 끌림 계수에 들어갈 수 없는 이유를 설명한다. 집단을 동질화하는 것은 AI 보조가 아니라 군중을 되비추는 AI의 루프이며, AI를 더 다양하게 만드는 것으로는 그 루프가 깨지지 않는다. 음성 결과 보존, 시드·스냅샷·명령 하나 재현은 공개 레포에.

초록 보기 →PDF 내려받기 GitHub (직접 실행)연구 노트

오픈 벤치마크 · MITIOV Labs · 오픈 벤치마크 · 12pp

판사가 틀릴 때: 진실 기준으로 채점한 LLM-as-Judge 신뢰도 벤치마크

Han Kim

"LLM-as-judge"(강한 LLM으로 다른 모델 출력을 채점)는 이제 사실상의 표준 평가법이지만, 판사 자신이 편향을 지닌 오류 가능한 모델이다. 대부분의 연구는 판사를 사람 또는 다른 판사와의 일치로 측정하는데, 둘 다 편향에 오염된다(평가자와 판사가 같은 편향을 공유해 함께 틀릴 수 있다). 우리는 대신 진실(ground truth) 기준으로 측정한다. 각 항목에 정답과 그럴듯한 오답을 두어 정확도를 직접 채점하고 편향을 분리한다. 프런티어 판사 5종(GPT-4o, GPT-4o-mini, GPT-4.1, Claude Sonnet 4.6, Claude Haiku 4.5)에서 깨끗한 해리(dissociation)를 발견했다. 39개 객관 항목(흔한 오해·직관 반하는 추론 함정 포함)에서 판사들은 거의 완벽(진실정확도 97–100%)하고, 위치 편향이 없으며, 오답을 권위적으로 늘여도 속지 않고, 자기일관·캘리브레이션이 우수하다. 그러나 둘 다 정답이고 길이만 다른 29개 동점 쌍에서는 같은 판사들이 더 긴 답을 압도적으로 선호한다(72–100%). 자기가문 선호 프로브는 길이 교란을 차이-의-차이로 보정하면 +13pt의 완만한 자기가문 편향을 보인다. 고전적 위치 편향은 사실상 해결되었고, 고전적 verbosity 편향은 강하게 살아있되 품질이 같을 때만 드러난다. 실용적 결론: LLM-as-judge는 검증 가능한 과제엔 신뢰할 수 있고, 실질보다 분량을 보상하는 주관적 채점엔 위험하다.

초록 보기 →PDF 내려받기 GitHub

오픈소스 · ISCIOV Labs · 기함 · 오픈소스 · 13pp

0x: 토큰 효율적이고 검증 가능한 LLM 코드 생성 타깃 언어

Han Kim

거대언어모델은 출력 토큰의 대부분을 프레임워크 보일러플레이트에 쓴다. 우리는 하나의 소스를 React·Vue 3·Svelte 5·React Native·Express·Terraform로 컴파일하는 컴팩트한 AI-First 언어 0x를 제시하고, 코드 생성 타깃이 답해야 할 두 질문을 던진다. 첫째 효율: 실제 BPE 토크나이저로 앱 10개를 측정한 결과 0x 소스는 컴파일된 React보다 2.41× 작다(58% 토큰 절감; Vue 1.88×, Svelte 1.80×) — 보수적 하한이다. 둘째 적중 가능성: 단순 프롬프트로는 gpt-4o가 5개 과제 중 1개만 유효한 0x를 컴파일했다. 학습 데이터에 없는 언어의 문법을 모르기 때문이다 — 친숙함이 압축을 이긴다. 결정적으로 모든 실패는 의미가 아닌 문법 오류였다. 문법은 구조 강제로 제거되는 바로 그것이므로, 우리는 스키마로 보장된 AST로 생성을 제약하고 정규 0x를 직접 렌더링했다. 실제 컴파일러 작업(JS 스프레드 desugaring, 엄격 동등 정규화, 렉서 버그 2건 수정 — 303개 테스트 전부 통과)과 결합해 첫 시도 컴파일이 1/5 → 5/5로 올랐고, 새로운 8개 과제에서도 7/8을 유지했다. 컴팩트 DSL을 실용적 LLM 타깃으로 만드는 것은 프롬프트가 아니라 검증기로서의 컴파일러다. 전부 오픈소스이며 명령 하나로 재현된다.

초록 보기 →PDF 내려받기 GitHub npm 웹사이트

오픈 벤치마크 · v1.0IOV Labs · 오픈 벤치마크 · 16pp

이미지 생성 모델의 한국어 텍스트 렌더링: 재현 가능한 문자오류율(CER) 벤치마크

Han Kim

생성 이미지 속 텍스트를 다루는 벤치마크는 대개 영어로 작성돼, 모델이 실제로 무너지는 문자 체계를 가린다. 우리는 그중 하나를 직접 측정한다. 텍스트에 강한 이미지 생성 모델 9종에게 한국어(한글) 문구 14개를 동일한 흰 포스터에 그리게 하고, 그려진 글자를 비전언어모델(GPT-4o)로 받아 적어 문자오류율(CER)로 채점했다. 세 모델(recraft-v4-pro, seedream-5, nano-banana-pro)은 모든 프롬프트를 완벽히 그렸고(CER 0.000, 14/14), 뚜렷한 품질 구배가 뒤따른다. 최하위 imagen-4는 한글을 아예 쓰지 못한다. 14개 전부를 그럴듯한 한글 모양의 횡설수설로 그렸고(0/14, 평균 CER 1.33), 커피 한 잔을 소동석 고려아는 아라해안으로 바꿨다. 핵심 발견은, 영어 텍스트 렌더링 실력이 한국어로 전이되지 않으며 영어만으로 만든 벤치마크에는 보이지 않는다는 것이다. 하니스는 공개돼 있고 명령 하나로 돌며, 저장된 결과에서 이어 실행되고, 프롬프트·모델을 쉽게 늘릴 수 있다.

초록 보기 →PDF 내려받기 GitHub (직접 실행)연구 노트

사전등록 · v1.0IOV Labs · 워킹페이퍼 (v1.0) · 21pp

2026 대한민국 지방선거 예측: 재현 가능한 여론조사·펀더멘털 결합 모델과 사전등록 검증 프로토콜

Han Kim

2026년 6월 3일 제9회 전국동시지방선거의 16개 광역단체장 선거를, 구조적 펀더멘털 추정(각 지역의 2022년 양자 득표율을 로짓 척도에서 2026년 환경으로 스윙)과 방식 정규화 여론조사 집계를 여론조사 수 가중 계층 축소로 결합해 예측한다. 결과 불확실성은 3단계 오차 구조(전국 ⊕ 클러스터 ⊕ 지역)와 두꺼운 꼬리(정규혼합 ≈ 스튜던트-t) 혁신을 가진 5만 회 상관 몬테카를로로 전파해, 전국 단위 여론조사 오차가 상관된 권역을 함께 움직이도록 했다. 파이프라인은 시드 고정으로 비트 단위 재현된다. 중심 추정은 민주당 16석 중 12석(90% 구간 8–15), 진짜 경합 5곳과 보수 우세 2곳이다. 오차 모델은 2022년 최종 전화면접 여론조사로 캘리브레이션(편향 −0.1pt, MAE 2.2pt)했고, 핵심 실패 모드인 상관 여론조사 편향은 ±4pt 시나리오 스윕으로 정량화했다. 병행한 실리콘 샘플링 실험(LLM 페르소나 유권자단)은 음성 결과로 보고한다. 본 논문은 사전등록 형식으로, 예측을 결과 전에 확정하고 투표 마감 후 고정된 스크립트로 채점한다.

초록 보기 →PDF 내려받기 연구 노트

워킹페이퍼와 프리프린트