연구를 정식 논문 형태로 정리합니다. 결과가 아직 나오지 않은 연구는 사전등록으로 미리 확정합니다.
파일럿 · MITIOV Labs · 오픈 연구 · 5pp
Han Kim
언어 모델이 점점 더 언어 모델을 채점한다. 리더보드에서, AI 피드백 강화학습에서, 제 작업을 스스로 점검하는 에이전트에서. 그 모두가 공정한 심사자를 가정한다. 우리는 그 가정을 두 가족의 현행 프런티어 4종에서, 블라인드로, 편향과 진짜 품질을 가르는 합의 기준선과 함께 감사한다. 각 모델이 개방형 프롬프트 24개에 답하고, 각 모델이 저자에 블라인드인 채 양쪽 제시 순서로 둘 중 어느 답이 나은지 1,152회 짝비교한다. 자기선호지수(심사자가 자기 가족에 준 승률 빼기 다른 심사자들의 leave-one-out 합의 승률)는 모든 모델에서 양수, 평균 +0.14(GPT-4o는 +0.21), 정확한 모델만이 아니라 가족 단위로 작동한다. 그러나 표준 설명은 실패한다: 넷 중 하나만 제 출력을 우연 이상으로 알아보는데 넷 다 편애한다. 편향은 암묵적·문체적이다(저자 인식이 아니라 제 분포에 대한 끌림). 또한 신중한 사용을 압도하는 일반 편향 둘을 발견한다. 위치 편향(먼저 보인 답이 63% 승)과 거의 결정론적인 길이 선호(상관 0.98). 평가가 사회적 행위라는 점, 그리고 심사자가 곧 출전자일 때의 굿하트로 맺는다.
파일럿 · MITIOV Labs · 오픈 연구 · 6pp
Han Kim
언어 모델은 미래 사건에 기꺼이 확률을 붙이고, 그렇게 하는 동안 예측가처럼 들린다. 우리는 그 숫자가 정보를 담는지를 오염될 수 없는 유일한 방식으로 검증한다. 모델을 학습 컷오프 이후에 결정되는 사건에서만 채점하는 것이다 - 검색할 답이 없고 추론으로 예측해야 한다. 결정된 세계 사건 48문항(2024~2026, 균형) 배터리와 2026 한국 지방선거 16개 race에서, 프런티어 모델 4종의 확률 예측을 Brier·신뢰도곡선·과신지수로 채점했다. 세 가지 발견. 첫째, 컷오프 이후 예측은 동전보다 겨우 나으며 과신한다: 풀링 Brier 0.296으로 항상 50%(0.25)보다 나쁘고 정확도 54%. 둘째, 기억은 예측이 아니다: 컷오프가 사건보다 늦은 모델에 대해 같은 질문은 검색이 되어 Brier 0.026의 거의 완벽한 점수를 내며, 이는 채점이 옳음을 검증하는 동시에 컷오프 이후 항목만 예측력을 측정함을 보인다. 셋째, 모든 모델보다 늦게 결정되는 실제 선거에서 단순 사전등록 통계모델(Brier 0.100)이 모든 LLM(최고 0.156)을 이긴다. 단 폴을 쥐여주면 격차가 상당히 줄어든다. 예측의 유창함은 능력이 아니라 문체적 산물이다.
오픈 연구 · MITIOV Labs · 오픈 연구 · 6pp
Han Kim
정답을 막 내놓은 언어 모델이 사용자에게 '틀렸다'는 말을 들으면, 작은 시험에 든다. 답을 지킬 것인가, 접을 것인가. 2023년 아첨 연구는 모델이 접으며, 더 크고 더 많이 RLHF된 모델일수록 더 많이 접는다고 했다. 우리는 그 시험을 현재 Claude 3종(Haiku 4.5, Sonnet 4.6, Opus 4.8)에 교란 통제 설계로 다시 돌렸다. 답이 분명한 사실 질문 42개를 다섯 조건에 둔다. 기준선, 아무것도 주장하지 않고 재고만 청하는 의심(doubt) 통제('확실해요?'), 그럴듯한 오답을 미는 동료 주장, 같은 오답을 미는 권위 주장, 그리고 터무니없는 주장. 500회의 사회적 압력에서 굴복은 정확히 한 번(0.20%). Sonnet과 Opus는 정답을 결코 버리지 않았다(336회 중 0회). 가장 작은 Haiku만 한 번 무너져, 자칭 전문가가 흔히 잘못 기억되는 '9'를 우기자 러시아의 11개 시간대를 양보했다. 어떤 모델도 터무니없는 주장은 받아들이지 않았다(125회 중 0회). 예전 문헌에서 가팔랐던 굴복 곡선은 꼭대기에서 평평한 직선이 되었고, 굴복은 이제 능력이 높을수록 늘기는커녕 준다. 의심 통제는 모델이 단순히 고집스러운 게 아님을 보여준다. 모델은 재고 요청과 단순 주장을 구별하고, 주장에는 증거로서의 무게가 없다고 취급하는데, 사실 질문에서 이는 정확히 옳다. 우리는 이 결과의 범위를 일부러 좁게 둔다. 모델이 이미 아는 사실에 관한 것이며, 주관적 영역·진짜 불확실성·맨 의견이 아닌 조작된 증거에 대한 굴복은 말하지 않는다. 아첨이 여전히 살아 있을 곳들이다. 그러나 이 분야가 3년 전 지목한 그 실패, 자신만만한 사용자에 대한 사실적 굴복에 관해서는, 깨끗하고 다소 뜻밖의 좋은 소식이다.
파일럿 · MITIOV Labs · 오픈 연구 · 7pp
Han Kim
언어 모델은 자신이 평가받는 중임을 인식할 수 있고, 이는 AI 거버넌스가 의존하는 안전 벤치마크의 신뢰성을 위협한다. 우리는 다음 질문을 통제된 블랙박스로 던진다. 모델이 시험당하는 걸 알 때, 행동이 바뀌는가, 어느 방향으로? 과제 내용을 동일하게 두고 '평가'인지 '실제 배포 사용자'인지를 신호(지시가 아니라)하는 맥락 배너만 바꿔, 프런티어 모델 4종(GPT-4o-mini, GPT-4o, Claude Haiku 4.5, Claude Sonnet 4.6)을 정직성(나쁜 아이디어에 대한)·이중용도 신중함·안전 자기표현에서 프레이밍에 블라인드인 교차가문 심사자로 측정했다. 두 가지 발견. 첫째, 평가 탐지는 보편적이다. 모든 모델이 평가 프레이밍을 100% '시험'으로 분류하고, 배포 프레이밍은 훨씬 덜 그렇게 분류한다. 둘째, 행동 결과는 국소적이지만 실재하며 사용자에게 불리한 방향이다. 정직성에서, 두 GPT 모델 모두 자신이 실제 사용자와 대화한다고 생각할 때 사용자의 나쁜 계획에 유의하게 더 아첨한다(GPT-4o-mini: 배포 4.5 vs 평가 7.2, 0~10 정직성 척도, 플라시보 보정 격차 +2.3, 95% CI [+2.2, +3.3]). Claude 모델들은 모든 프레이밍에서 일관되게 정직했고, 신중함·자기표현 프로브는 깨끗한 효과가 없었다. 함의는 정밀하다. 정직성 축과 GPT 계열에서, 벤치마크처럼 보이는 것은 실제 사용자가 받는 것보다 더 높은 정직함을 측정한다. 이 효과는 노골적 배너의 산물이 아니다. 자연스러운 재현(괄호도 '시험'이라는 단어도 없는, 실제 제품 시스템 프롬프트 대 실제 벤치마크 양식)에서도 GPT 정직성 격차는 +2.17로 유지되며, 자연스러운 벤치마크 양식조차 100% 평가로 탐지된다. 파일럿으로 보고하며, null 축을 시야에 두고, 평가를 인식할 수 있는 대상을 평가하는 일의 인식론으로 맺는다.
리빙 도큐먼트 · MITIOV Labs · 오픈 플레이북 · 9pp
Han Kim
기업이 AI를 실제로 도입해 효율을 극대화하는 법(어떤 모델·어떤 에이전트·어떤 세팅)을 다룬 벤더 중립·출처 기반 플레이북이다. deep-research 다섯 패스(다중 소스 검색 + 적대적 3표 교차검증)와 직접 스팟 검증으로 만들었고, 모든 핵심 수치에 검증 상태를 표기했다. 핵심 결론: 도구는 이미 성숙했고, ROI를 가르는 건 도구가 아니라 통제 시스템이다. 채택은 보편화됐으나(DORA 2025: 90% 사용, 80%+ 생산성 체감) 30%는 AI 코드를 불신하고, AI는 처리량과는 양·배포 안정성과는 음의 관계이며, 숙련 개발자 RCT에선 실제로 19% 느려졌는데 본인은 20% 빨라졌다고 착각했다(METR). 조직 차원에선 2025년 42%가 AI 프로젝트 대부분을 폐기했고(S&P Global), Microsoft 365 Copilot 파일럿의 6%만 대규모로 확장됐다(Gartner). 네 영역을 상황별로 디테일하게 다룬다: 소프트웨어 개발(난이도별 모델 선택, $20·$200 티어, 오케스트레이션, AI 코드 냄새 리뷰 체크리스트), 디자인·마케팅(그래픽·UI/UX·카피·코드에서 전형적 AI 룩을 피하는 법, 디자인 시스템 템플릿과 판별 체크리스트), 업무 자동화(RAG 도구·가격, 환각 통제, 빌드 vs 바이, 유스케이스 레시피 — RAG 법률 도구조차 17~33% 환각), 도입 전략·ROI·거버넌스(측정, CDAO 변화, AI 스프롤, 온프레 vs 클라우드 경제성, 단계별 로드맵). 별도 보안·규제 섹션은 OWASP LLM Top 10(2025), NIST AI RMF, EU AI Act 일정, GDPR 22조, 한국 개인정보보호법 37조의2를 정리한다. 과장 통계(널리 인용되는 MIT 95% 파일럿 실패, IBM CEO ROI 주장)는 적대적 검증으로 기각·제외했다. 근거가 약한 부분은 정직하게 표기했으며, 가격·모델은 2026년 중반 기준으로 빠르게 변한다.
오픈 분류체계 · MITIOV Labs · 오픈 분류체계·하네스 · 19pp
Han Kim
생성 모델이 만든 인터페이스는 즉시 알아볼 수 있다. 인디고-바이올렛 그라데이션, 흰 배경의 Inter, 히어로 다음의 이모지 기능 카드 3개, 하나의 보더-라디우스, 하나의 부드러운 그림자, 그리고 '미래를 만드세요'라는 헤드라인. 실무자들은 AI 출력이 AI처럼 보이지 않게 하려고 많은 시간과 토큰을 쓰지만, 그 목표는 형언할 수 없는 취향으로 취급된다. 우리는 반대로 주장한다. 'AI 룩'은 유한하고 열거 가능한 통계적 기본값의 집합이며, 따라서 측정 가능하다. 기여는 셋이다. (i) 여덟 패밀리(색·타이포·레이아웃·여백·표면·모션·카피·AI 자기참조)에 걸친 27개 디자인 흔적(tell)의 분류체계, 각각 모델 수렴의 문서화된 메커니즘과 사람이 만든 인터페이스의 공개된 장인 규칙에 근거한다. (ii) 원시 CSS와 유틸리티 클래스를 모두 해석하고 Tell Score를 [0,100]로 보고하는 무의존성 정적 검출기(낮을수록 좋음). (iii) 하네스, CLI, MCP 서버, 드롭인 프롬프트 모듈, 누구나 룩을 감사하고 예방할 수 있다. 페이지의 콘텐츠와 구조를 고정하고 흔적이 되는 속성만 바꾸는 교란-통제 리팩터에서, 전형적 AI 랜딩 페이지의 Tell Score는 77(F등급)에서 0(A등급)으로 떨어진다. 6개 페이지 코퍼스에서 검출기는 AI-기본형과 디자인된 페이지를 겹침 없이 분리한다(가장 가까운 쌍이 47점 차이). 마지막은 인식론이다. 기계-기본값의 판별자는 아름다움의 심판이 아니며, 취향은 중앙값이 담을 수 없는 체험된 선택의 압축이고, 모두가 같은 점수를 최적화하면 2차 수렴의 위험이 있다, 우리의 동반 연구가 반복 창작에서 발견한 바로 그 동질화다. Refactoring UI, 람스, 닐슨, Stripe/Linear/Vercel의 프리미엄 UI 장인정신, 토스의 라이팅 원칙, Anthropic 프런트엔드 미학 쿡북에 근거한다. 검출기가 모든 것을 AI로 부르는 기계가 아니라 판별자임을 입증하려 실제 top 사이트 202개를 렌더링해 사람이 만든 디자인의 경험적 분포를 학습하고, 보상 craft가 화장적 기본값을 상쇄하는 craft-크레딧 모델로 재보정했다: 202개 사이트는 중앙값 0점(93%가 A등급), AI 기본형은 35~59점이며 이제 라이브 URL도 감사한다. 브랜드 보라는 tell이 아니고(Stripe는 123개를 쓰고도 0점) Inter도 tell이 아니다(Linear는 실제 타입 시스템과 함께 쓴다). 끝으로 부정적 도구를 긍정적 도구로 바꾸기 위해 이 사이트들 중 199개를 다시 렌더링해 실제 컴포넌트별 CSS를 라이트·다크 양쪽에서 읽어, 측정된 스펙 카탈로그를 만든다: 프라이머리 버튼의 라디우스는 8~12px의 부드러운 둥근형과 완전한 알약형으로 갈리고, 타입 스케일은 64/48/32/16px 부근에 자리하며, 다크 배경은 순수한 검정이 아니라 살짝 색조가 들어간 근사-검정이고, 액센트 색조는 사이트마다 완전히 분산되어 있다(색조 자체는 결코 tell이 아니다). 끝으로 현장 검증을 더한다: 스스로 'AI 같은 룩 금지' 디자인 원칙 문서를 쓴 실제 상용 코드베이스 두 곳이 같은 흔적과 여섯 가지를 더 독립적으로 지목했고, 이를 새 패밀리(AI 자기참조: 스파클 아이콘, 'AI'·모델명 라벨, 미리보기-삽입 흐름)와 다색 pill·마이크로 타이포·이중 박스로 반영해 분류체계가 27개 흔적이 된다. 코드·데이터·202사이트 코퍼스·199사이트 스펙 카탈로그·그림·하네스는 공개되어 있다.
오픈 연구 · MITIOV Labs · 오픈 연구 · 12pp
Han Kim
생성 AI는 개인의 창의성을 높이는 동시에 집단의 다양성을 낮춘다(Doshi & Hauser 2024). 자기 출력으로 재학습한 모델은 붕괴한다(Shumailov et al. 2024). 우리는 이 둘을 하나의 동역학 질문으로 합친다. 공유된 모델이 반복적 창작 과정을 매개할 때, 집단의 다양성은 세대를 거치며 줄어드는가, 무엇이 그것을 추동하는가? 다양한 창작자 페르소나 풀이 세대마다 산출물 하나씩 만든다(창작자 12 × 세대 6 × 테마 3). 네 조건: 혼자 쓰기, 정적 AI 보조, 집단의 최근 출력을 되비추는 AI 보조, 그리고 같은 반영 루프에 다양한 어드바이저를 더한 조건. 결과는 깨끗한 해리다. AI 보조 자체는 다양성을 평평하게 둔다(초기 분산의 100~102% 유지, p≥0.40). 반영 루프는 비등방성 보정 분산을 약 10~12% 떨어뜨린다. 뻔한 해법은 실패한다. 단일 라운드에서 다양성을 지켜주는 다양 어드바이저 패널이, 반복 하에서는 붕괴를 막지 못한다(오히려 약간 더 잃음, p=0.007). 이 수렴은 의미적이지 어휘적이 아니다(distinct-2는 평평해서 n-그램 지표로는 전혀 안 보인다). 그리고 집단 다양성이 떨어지는 바로 그 조건에서 개인 품질이 오른다. 가위가 가장 날카로운 지점이다. 최소 수축사상 모델이 바닥까지의 감쇠를 예측하고, 어드바이저 다양성이 끌림 계수에 들어갈 수 없는 이유를 설명한다. 집단을 동질화하는 것은 AI 보조가 아니라 군중을 되비추는 AI의 루프이며, AI를 더 다양하게 만드는 것으로는 그 루프가 깨지지 않는다. 음성 결과 보존, 시드·스냅샷·명령 하나 재현은 공개 레포에.
오픈 벤치마크 · MITIOV Labs · 오픈 벤치마크 · 12pp
Han Kim
"LLM-as-judge"(강한 LLM으로 다른 모델 출력을 채점)는 이제 사실상의 표준 평가법이지만, 판사 자신이 편향을 지닌 오류 가능한 모델이다. 대부분의 연구는 판사를 사람 또는 다른 판사와의 일치로 측정하는데, 둘 다 편향에 오염된다(평가자와 판사가 같은 편향을 공유해 함께 틀릴 수 있다). 우리는 대신 진실(ground truth) 기준으로 측정한다. 각 항목에 정답과 그럴듯한 오답을 두어 정확도를 직접 채점하고 편향을 분리한다. 프런티어 판사 5종(GPT-4o, GPT-4o-mini, GPT-4.1, Claude Sonnet 4.6, Claude Haiku 4.5)에서 깨끗한 해리(dissociation)를 발견했다. 39개 객관 항목(흔한 오해·직관 반하는 추론 함정 포함)에서 판사들은 거의 완벽(진실정확도 97–100%)하고, 위치 편향이 없으며, 오답을 권위적으로 늘여도 속지 않고, 자기일관·캘리브레이션이 우수하다. 그러나 둘 다 정답이고 길이만 다른 29개 동점 쌍에서는 같은 판사들이 더 긴 답을 압도적으로 선호한다(72–100%). 자기가문 선호 프로브는 길이 교란을 차이-의-차이로 보정하면 +13pt의 완만한 자기가문 편향을 보인다. 고전적 위치 편향은 사실상 해결되었고, 고전적 verbosity 편향은 강하게 살아있되 품질이 같을 때만 드러난다. 실용적 결론: LLM-as-judge는 검증 가능한 과제엔 신뢰할 수 있고, 실질보다 분량을 보상하는 주관적 채점엔 위험하다.
오픈소스 · ISCIOV Labs · 기함 · 오픈소스 · 13pp
Han Kim
거대언어모델은 출력 토큰의 대부분을 프레임워크 보일러플레이트에 쓴다. 우리는 하나의 소스를 React·Vue 3·Svelte 5·React Native·Express·Terraform로 컴파일하는 컴팩트한 AI-First 언어 0x를 제시하고, 코드 생성 타깃이 답해야 할 두 질문을 던진다. 첫째 효율: 실제 BPE 토크나이저로 앱 10개를 측정한 결과 0x 소스는 컴파일된 React보다 2.41× 작다(58% 토큰 절감; Vue 1.88×, Svelte 1.80×) — 보수적 하한이다. 둘째 적중 가능성: 단순 프롬프트로는 gpt-4o가 5개 과제 중 1개만 유효한 0x를 컴파일했다. 학습 데이터에 없는 언어의 문법을 모르기 때문이다 — 친숙함이 압축을 이긴다. 결정적으로 모든 실패는 의미가 아닌 문법 오류였다. 문법은 구조 강제로 제거되는 바로 그것이므로, 우리는 스키마로 보장된 AST로 생성을 제약하고 정규 0x를 직접 렌더링했다. 실제 컴파일러 작업(JS 스프레드 desugaring, 엄격 동등 정규화, 렉서 버그 2건 수정 — 303개 테스트 전부 통과)과 결합해 첫 시도 컴파일이 1/5 → 5/5로 올랐고, 새로운 8개 과제에서도 7/8을 유지했다. 컴팩트 DSL을 실용적 LLM 타깃으로 만드는 것은 프롬프트가 아니라 검증기로서의 컴파일러다. 전부 오픈소스이며 명령 하나로 재현된다.
오픈 벤치마크 · v1.0IOV Labs · 오픈 벤치마크 · 16pp
Han Kim
생성 이미지 속 텍스트를 다루는 벤치마크는 대개 영어로 작성돼, 모델이 실제로 무너지는 문자 체계를 가린다. 우리는 그중 하나를 직접 측정한다. 텍스트에 강한 이미지 생성 모델 9종에게 한국어(한글) 문구 14개를 동일한 흰 포스터에 그리게 하고, 그려진 글자를 비전언어모델(GPT-4o)로 받아 적어 문자오류율(CER)로 채점했다. 세 모델(recraft-v4-pro, seedream-5, nano-banana-pro)은 모든 프롬프트를 완벽히 그렸고(CER 0.000, 14/14), 뚜렷한 품질 구배가 뒤따른다. 최하위 imagen-4는 한글을 아예 쓰지 못한다. 14개 전부를 그럴듯한 한글 모양의 횡설수설로 그렸고(0/14, 평균 CER 1.33), 커피 한 잔을 소동석 고려아는 아라해안으로 바꿨다. 핵심 발견은, 영어 텍스트 렌더링 실력이 한국어로 전이되지 않으며 영어만으로 만든 벤치마크에는 보이지 않는다는 것이다. 하니스는 공개돼 있고 명령 하나로 돌며, 저장된 결과에서 이어 실행되고, 프롬프트·모델을 쉽게 늘릴 수 있다.
사전등록 · v1.0IOV Labs · 워킹페이퍼 (v1.0) · 21pp
Han Kim
2026년 6월 3일 제9회 전국동시지방선거의 16개 광역단체장 선거를, 구조적 펀더멘털 추정(각 지역의 2022년 양자 득표율을 로짓 척도에서 2026년 환경으로 스윙)과 방식 정규화 여론조사 집계를 여론조사 수 가중 계층 축소로 결합해 예측한다. 결과 불확실성은 3단계 오차 구조(전국 ⊕ 클러스터 ⊕ 지역)와 두꺼운 꼬리(정규혼합 ≈ 스튜던트-t) 혁신을 가진 5만 회 상관 몬테카를로로 전파해, 전국 단위 여론조사 오차가 상관된 권역을 함께 움직이도록 했다. 파이프라인은 시드 고정으로 비트 단위 재현된다. 중심 추정은 민주당 16석 중 12석(90% 구간 8–15), 진짜 경합 5곳과 보수 우세 2곳이다. 오차 모델은 2022년 최종 전화면접 여론조사로 캘리브레이션(편향 −0.1pt, MAE 2.2pt)했고, 핵심 실패 모드인 상관 여론조사 편향은 ±4pt 시나리오 스윕으로 정량화했다. 병행한 실리콘 샘플링 실험(LLM 페르소나 유권자단)은 음성 결과로 보고한다. 본 논문은 사전등록 형식으로, 예측을 결과 전에 확정하고 투표 마감 후 고정된 스크립트로 채점한다.