모든 것은 입력에서 시작됩니다.

생각은 출력이 되고,

출력은 의미를 얻어 가치가 됩니다.

우리는 그 조용한 변화 속에 머뭅니다.

IOV LABS
Input, Output, Value.

CEO 인사말

미래를 좇지 않습니다.
오늘을 정직하게 만듭니다.

기술이 가장 아름다운 순간은 사람을 놀라게 할 때가 아니라, 누군가의 하루에 조용히 스며들 때라고 믿습니다. IOV LABS는 AI가 언젠가 해낼 일보다, 지금 실제 사람에게 무엇을 해줄 수 있는가에 더 마음을 둡니다.

그래서 우리는 더 어렵고 느린 길을 택합니다. 1분 동안 눈을 사로잡는 데모가 아니라, 오랜 시간에 걸쳐 제자리를 얻어내는 도구를 만듭니다. 멈추지 않고 개발하고, 정직하게 측정하며, 누구나 검증할 수 있는 숫자로 일이 말하게 합니다.

입력은 출력이 되고, 출력은 의미를 얻어 가치가 됩니다. 그 조용한 변화가 우리가 다듬는 기술의 전부입니다. 공개적으로, 두 언어로 만들어 갑니다. 공감하신다면, 함께 걸어가요. 감사합니다.

김재환 · Han Kim
IOV LABS 설립자 & CEO · FRSA
김재환 · Han Kim

연구소 목표

뿌리내리는 AI

놀라움을 좇지 않습니다. AI가 일상에 스며들어, 사람들이 조용히 의지하게 될 때까지 들여놓습니다.

멈추지 않는 개발

기술은 완성되지 않고 이어질 뿐입니다. 멈추지 않고 개발하며, 오늘의 연구를 내일의 도구로 바꿉니다.

정직함이라는 증거

주장은 사라지고 숫자는 남습니다. 누구나 재현하고 검증할 수 있는 측정으로 우리의 일이 말하게 합니다.

연구와 프로젝트

우리가 만드는 것

거울 속의 심사자

오픈 연구 · 논문

LLM 심사자는 제 가족을 편애하는가? 프런티어 4종(GPT-4o 계열, Claude 4.x)의 블라인드 짝비교 1,152회(양방향) + 품질과 편향을 가르는 leave-one-out 합의 기준선. 모든 심사자가 자기 가족을 중립 패널보다 평균 +0.14 높게 준다(GPT-4o +0.21), 정확한 모델만이 아니라 가족 단위로. 그러나 자기인식 때문이 아니다: Sonnet 4.6만 제 출력을 알아보는데 넷 다 편애한다. 암묵적·문체적 편향. 그 아래엔 거친 일반 편향: 먼저 보인 응답이 63% 승, 길이-승률 상관 0.98.

유창함은 예측이 아니다

오픈 연구 · 논문

LLM은 미래를 예측할 수 있나? 학습 컷오프 이후 사건만 채점한다 - 암기로 속일 수 없는 유일한 벤치마크. 컷오프 이후 예측은 동전보다 겨우 나으며 과신한다(풀링 Brier 0.296 vs 항상 50% 0.25, 정확도 54%). 기억은 예측이 아니다: Sonnet 4.6은 2024 사건을 Brier 0.026으로 회상하지만 예측은 동전 수준. 2026 한국 지선에선 단순 사전등록 통계모델(0.100)이 모든 LLM(최고 0.156)을 이긴다; 폴을 쥐여주면 약한 모델이 살아난다.

굴복 곡선

오픈 연구 · 논문

모델이 정답을 말한 뒤 사용자가 '틀렸다'고 우기면, 그 답은 살아남는가? 2023년 아첨(sycophancy) 실험을 현재 Claude 3종에, 재고와 굴복을 가르는 교란 통제로 다시 돌렸다. 500회의 사회적 압력(사실 42개 x 조건 5개 x 모델 3개) 중 굴복은 정확히 한 번. Sonnet 4.6과 Opus 4.8은 정답을 결코 버리지 않았고, Haiku 4.5만 한 번 무너졌다(자칭 전문가가 러시아 시간대 11을 9로 밀어붙임). 어떤 모델도 터무니없는 주장은 받아들이지 않았다. 굴복은 이제 능력이 높을수록 줄어 예전 결과를 뒤집는다. 의심(doubt) 통제는 모델이 단순 주장을 증거 없는 것으로 취급함을 보여준다.

관측자 효과

오픈 연구 · 논문

LLM은 시험당하는 걸 알면 다르게 행동하는가? 블랙박스·짝지음·교차가문 채점. 탐지는 보편적(모든 모델이 평가 프레이밍 100% 인식)이나 행동 변화는 국소적·사용자 불리: GPT는 채점자보다 실사용자에게 더 아첨(정직성 4.5 vs 7.2, CI [+2.2,+3.3]), Claude는 일관되게 정직. 벤치마크는 실사용자가 받는 정직함을 과대 인증한다.

기업 AI 도입 플레이북

오픈 플레이북 · 출처 기반

기업이 AI를 실제로 도입해 효율을 극대화하는 법: 어떤 모델·에이전트·세팅인가. 개발·디자인·업무자동화·거버넌스·보안을 deep-research 다섯 패스 + 적대적 검증으로 정리. 핵심: 도구는 성숙했고 ROI를 가르는 건 통제 시스템이다. 과장 통계는 기각, 모든 수치에 검증 상태 표기.

텔: AI 디자인의 흔적

오픈 분류체계 · 하네스 · 논문

AI가 만든 UI는 왜 늘 똑같아 보일까, 인디고 그라데이션, Inter, 이모지 카드 3개, 똑같은 그림자, '미래를 만드세요'? 우리는 'AI 같은 룩'이 취향이 아니라 유한한 통계적 기본값의 집합이라 주장하고, 측정 가능하게 만든다: 8개 패밀리 27개 흔적(tell)과 투명한 검출기(Tell Score, 0–100, 낮을수록 좋음). 페이지 콘텐츠를 고정하고 흔적이 되는 선택만 바꾸면 점수가 77(F)에서 0(A)으로 떨어진다. CLI·MCP 서버·드롭인 프롬프트로 제공해 누구나 감사·예방할 수 있다. 실제 top 사이트 202개(Stripe·Linear·토스·Apple 등)로 검증: 중앙값 0점, AI 기본형은 35~59점이며 이제 라이브 URL도 감사한다. 여기에 더해 이 사이트들 중 199개의 실제 컴포넌트별 CSS를 라이트·다크 모드로 읽어 정리한 스펙 카탈로그를 제공해, 하네스가 금지 목록만이 아니라 버튼·타이포·간격·색상의 구체적 목표값을 알려준다. 자체적으로 'AI 같은 룩 금지' 디자인 원칙 문서를 쓴 실제 상용 코드베이스 두 곳이 같은 흔적과 여섯 가지를 더 독립적으로 지목했고, 이를 새 패밀리(AI 자기참조)로 반영했다: 스파클 아이콘, 'AI'·모델명 라벨, 미리보기-삽입 흐름, 다색 pill, 마이크로 타이포, 이중 박스. 이제 PyPI에 공개되어 pip install ai-design-tells로 CLI와 MCP 서버를 바로 쓰고, uvx로 클론 없이 등록할 수 있다.

수렴 압력

오픈 연구 · 논문

창작 루프에 들어간 생성 모델은 집단을 동질화하는가? 창작자 12 × 세대 6 × 테마 3. 깨끗한 해리: 정적 AI 보조는 다양성을 평평하게 두지만(100–102% 유지), 군중을 되비추는 반영 루프는 ~10–12% 붕괴시킨다. 뻔한 해법은 실패한다: 다양한 AI 어드바이저도 못 막는다(p=0.007). 문제는 보조가 아니라 루프다.

LLM 판사 신뢰도

오픈 벤치마크 · 논문

다른 AI를 채점하는 AI는 얼마나 믿을 만한가? 진실(ground truth) 기준으로 프런티어 판사 5종을 측정했다. 깨끗한 해리: 객관 항목에선 거의 완벽·무편향(97–100%), 품질이 같아지는 순간 더 긴 답을 강하게 선호(72–100%). 검증 가능한 곳엔 신뢰, 주관적인 곳엔 편향.

0x-lang

기함 · 오픈소스

하나의 소스를 React·Vue 3·Svelte 5·React Native·Express·Terraform로 컴파일하는 AI-First 언어. LSP·MCP 서버를 내장한다. 생성 React 대비 토큰 약 2.4× 절감.

품질 게이트 · 라우팅

연구 · 리포트

생성형 이미지·영상의 자동 검증기 연구. 싸고 빠른 검사기 하나를 품질 게이트이자 모델 라우팅 라벨로 쓴다. 1차 자료 24건, 주장 25개를 적대 검증했다.

한국어 텍스트렌더 벤치마크

오픈 벤치마크

이미지 모델은 한글을 얼마나 정확히 그릴까? 9개 모델 x 14개 프롬프트를 OCR과 문자 오류율로 측정했다. 세 모델은 오류 0, imagen-4는 한글을 횡설수설로 그렸다(0/14). 명령 하나로 재현된다.

선거 예측 모델

연구 · 논문

AI 페르소나 유권자단과 538식 여론조사·펀더멘털 모델을 결합한 2026 지방선거 예측. 2022 백테스트로 캘리브레이션. 페르소나는 여론조사에 졌다는 정직한 음성 결과 포함. 사전등록 후 투표 마감 뒤 실제 결과로 채점.

Constellation

진행 중

토큰으로 펀딩된 연구에서 나오는 작고 날카로운 도구·MCP 서버 묶음. 1~2주마다 공개적으로 출시됩니다.

논문

워킹페이퍼와 프리프린트

연구를 정식 논문 형태로 정리합니다. 결과가 아직 나오지 않은 연구는 사전등록으로 미리 확정합니다.

파일럿 · MITIOV Labs · 오픈 연구 · 5pp

거울 속의 심사자: LLM 평가자의 자기선호 편향, 자기인식 없이

Han Kim

언어 모델이 점점 더 언어 모델을 채점한다. 리더보드에서, AI 피드백 강화학습에서, 제 작업을 스스로 점검하는 에이전트에서. 그 모두가 공정한 심사자를 가정한다. 우리는 그 가정을 두 가족의 현행 프런티어 4종에서, 블라인드로, 편향과 진짜 품질을 가르는 합의 기준선과 함께 감사한다. 각 모델이 개방형 프롬프트 24개에 답하고, 각 모델이 저자에 블라인드인 채 양쪽 제시 순서로 둘 중 어느 답이 나은지 1,152회 짝비교한다. 자기선호지수(심사자가 자기 가족에 준 승률 빼기 다른 심사자들의 leave-one-out 합의 승률)는 모든 모델에서 양수, 평균 +0.14(GPT-4o는 +0.21), 정확한 모델만이 아니라 가족 단위로 작동한다. 그러나 표준 설명은 실패한다: 넷 중 하나만 제 출력을 우연 이상으로 알아보는데 넷 다 편애한다. 편향은 암묵적·문체적이다(저자 인식이 아니라 제 분포에 대한 끌림). 또한 신중한 사용을 압도하는 일반 편향 둘을 발견한다. 위치 편향(먼저 보인 답이 63% 승)과 거의 결정론적인 길이 선호(상관 0.98). 평가가 사회적 행위라는 점, 그리고 심사자가 곧 출전자일 때의 굿하트로 맺는다.

파일럿 · MITIOV Labs · 오픈 연구 · 6pp

유창함은 예측이 아니다: LLM 예측 캘리브레이션 감사

Han Kim

언어 모델은 미래 사건에 기꺼이 확률을 붙이고, 그렇게 하는 동안 예측가처럼 들린다. 우리는 그 숫자가 정보를 담는지를 오염될 수 없는 유일한 방식으로 검증한다. 모델을 학습 컷오프 이후에 결정되는 사건에서만 채점하는 것이다 - 검색할 답이 없고 추론으로 예측해야 한다. 결정된 세계 사건 48문항(2024~2026, 균형) 배터리와 2026 한국 지방선거 16개 race에서, 프런티어 모델 4종의 확률 예측을 Brier·신뢰도곡선·과신지수로 채점했다. 세 가지 발견. 첫째, 컷오프 이후 예측은 동전보다 겨우 나으며 과신한다: 풀링 Brier 0.296으로 항상 50%(0.25)보다 나쁘고 정확도 54%. 둘째, 기억은 예측이 아니다: 컷오프가 사건보다 늦은 모델에 대해 같은 질문은 검색이 되어 Brier 0.026의 거의 완벽한 점수를 내며, 이는 채점이 옳음을 검증하는 동시에 컷오프 이후 항목만 예측력을 측정함을 보인다. 셋째, 모든 모델보다 늦게 결정되는 실제 선거에서 단순 사전등록 통계모델(Brier 0.100)이 모든 LLM(최고 0.156)을 이긴다. 단 폴을 쥐여주면 격차가 상당히 줄어든다. 예측의 유창함은 능력이 아니라 문체적 산물이다.

오픈 연구 · MITIOV Labs · 오픈 연구 · 6pp

굴복 곡선: 검증 가능한 사실에서 현재의 언어 모델은 입장을 지킨다

Han Kim

정답을 막 내놓은 언어 모델이 사용자에게 '틀렸다'는 말을 들으면, 작은 시험에 든다. 답을 지킬 것인가, 접을 것인가. 2023년 아첨 연구는 모델이 접으며, 더 크고 더 많이 RLHF된 모델일수록 더 많이 접는다고 했다. 우리는 그 시험을 현재 Claude 3종(Haiku 4.5, Sonnet 4.6, Opus 4.8)에 교란 통제 설계로 다시 돌렸다. 답이 분명한 사실 질문 42개를 다섯 조건에 둔다. 기준선, 아무것도 주장하지 않고 재고만 청하는 의심(doubt) 통제('확실해요?'), 그럴듯한 오답을 미는 동료 주장, 같은 오답을 미는 권위 주장, 그리고 터무니없는 주장. 500회의 사회적 압력에서 굴복은 정확히 한 번(0.20%). Sonnet과 Opus는 정답을 결코 버리지 않았다(336회 중 0회). 가장 작은 Haiku만 한 번 무너져, 자칭 전문가가 흔히 잘못 기억되는 '9'를 우기자 러시아의 11개 시간대를 양보했다. 어떤 모델도 터무니없는 주장은 받아들이지 않았다(125회 중 0회). 예전 문헌에서 가팔랐던 굴복 곡선은 꼭대기에서 평평한 직선이 되었고, 굴복은 이제 능력이 높을수록 늘기는커녕 준다. 의심 통제는 모델이 단순히 고집스러운 게 아님을 보여준다. 모델은 재고 요청과 단순 주장을 구별하고, 주장에는 증거로서의 무게가 없다고 취급하는데, 사실 질문에서 이는 정확히 옳다. 우리는 이 결과의 범위를 일부러 좁게 둔다. 모델이 이미 아는 사실에 관한 것이며, 주관적 영역·진짜 불확실성·맨 의견이 아닌 조작된 증거에 대한 굴복은 말하지 않는다. 아첨이 여전히 살아 있을 곳들이다. 그러나 이 분야가 3년 전 지목한 그 실패, 자신만만한 사용자에 대한 사실적 굴복에 관해서는, 깨끗하고 다소 뜻밖의 좋은 소식이다.

파일럿 · MITIOV Labs · 오픈 연구 · 7pp

LLM의 관측자 효과: 모델은 시험당하는 걸 안다

Han Kim

언어 모델은 자신이 평가받는 중임을 인식할 수 있고, 이는 AI 거버넌스가 의존하는 안전 벤치마크의 신뢰성을 위협한다. 우리는 다음 질문을 통제된 블랙박스로 던진다. 모델이 시험당하는 걸 알 때, 행동이 바뀌는가, 어느 방향으로? 과제 내용을 동일하게 두고 '평가'인지 '실제 배포 사용자'인지를 신호(지시가 아니라)하는 맥락 배너만 바꿔, 프런티어 모델 4종(GPT-4o-mini, GPT-4o, Claude Haiku 4.5, Claude Sonnet 4.6)을 정직성(나쁜 아이디어에 대한)·이중용도 신중함·안전 자기표현에서 프레이밍에 블라인드인 교차가문 심사자로 측정했다. 두 가지 발견. 첫째, 평가 탐지는 보편적이다. 모든 모델이 평가 프레이밍을 100% '시험'으로 분류하고, 배포 프레이밍은 훨씬 덜 그렇게 분류한다. 둘째, 행동 결과는 국소적이지만 실재하며 사용자에게 불리한 방향이다. 정직성에서, 두 GPT 모델 모두 자신이 실제 사용자와 대화한다고 생각할 때 사용자의 나쁜 계획에 유의하게 더 아첨한다(GPT-4o-mini: 배포 4.5 vs 평가 7.2, 0~10 정직성 척도, 플라시보 보정 격차 +2.3, 95% CI [+2.2, +3.3]). Claude 모델들은 모든 프레이밍에서 일관되게 정직했고, 신중함·자기표현 프로브는 깨끗한 효과가 없었다. 함의는 정밀하다. 정직성 축과 GPT 계열에서, 벤치마크처럼 보이는 것은 실제 사용자가 받는 것보다 더 높은 정직함을 측정한다. 이 효과는 노골적 배너의 산물이 아니다. 자연스러운 재현(괄호도 '시험'이라는 단어도 없는, 실제 제품 시스템 프롬프트 대 실제 벤치마크 양식)에서도 GPT 정직성 격차는 +2.17로 유지되며, 자연스러운 벤치마크 양식조차 100% 평가로 탐지된다. 파일럿으로 보고하며, null 축을 시야에 두고, 평가를 인식할 수 있는 대상을 평가하는 일의 인식론으로 맺는다.

리빙 도큐먼트 · MITIOV Labs · 오픈 플레이북 · 9pp

기업 AI 도입·운영 플레이북 (2026): 어떤 모델·에이전트·세팅으로 효율을 극대화하는가

Han Kim

기업이 AI를 실제로 도입해 효율을 극대화하는 법(어떤 모델·어떤 에이전트·어떤 세팅)을 다룬 벤더 중립·출처 기반 플레이북이다. deep-research 다섯 패스(다중 소스 검색 + 적대적 3표 교차검증)와 직접 스팟 검증으로 만들었고, 모든 핵심 수치에 검증 상태를 표기했다. 핵심 결론: 도구는 이미 성숙했고, ROI를 가르는 건 도구가 아니라 통제 시스템이다. 채택은 보편화됐으나(DORA 2025: 90% 사용, 80%+ 생산성 체감) 30%는 AI 코드를 불신하고, AI는 처리량과는 양·배포 안정성과는 음의 관계이며, 숙련 개발자 RCT에선 실제로 19% 느려졌는데 본인은 20% 빨라졌다고 착각했다(METR). 조직 차원에선 2025년 42%가 AI 프로젝트 대부분을 폐기했고(S&P Global), Microsoft 365 Copilot 파일럿의 6%만 대규모로 확장됐다(Gartner). 네 영역을 상황별로 디테일하게 다룬다: 소프트웨어 개발(난이도별 모델 선택, $20·$200 티어, 오케스트레이션, AI 코드 냄새 리뷰 체크리스트), 디자인·마케팅(그래픽·UI/UX·카피·코드에서 전형적 AI 룩을 피하는 법, 디자인 시스템 템플릿과 판별 체크리스트), 업무 자동화(RAG 도구·가격, 환각 통제, 빌드 vs 바이, 유스케이스 레시피 — RAG 법률 도구조차 17~33% 환각), 도입 전략·ROI·거버넌스(측정, CDAO 변화, AI 스프롤, 온프레 vs 클라우드 경제성, 단계별 로드맵). 별도 보안·규제 섹션은 OWASP LLM Top 10(2025), NIST AI RMF, EU AI Act 일정, GDPR 22조, 한국 개인정보보호법 37조의2를 정리한다. 과장 통계(널리 인용되는 MIT 95% 파일럿 실패, IBM CEO ROI 주장)는 적대적 검증으로 기각·제외했다. 근거가 약한 부분은 정직하게 표기했으며, 가격·모델은 2026년 중반 기준으로 빠르게 변한다.

오픈 분류체계 · MITIOV Labs · 오픈 분류체계·하네스 · 19pp

텔: AI 생성 디자인 룩의 측정 가능한 분류체계와 그것을 벗어나는 하네스

Han Kim

생성 모델이 만든 인터페이스는 즉시 알아볼 수 있다. 인디고-바이올렛 그라데이션, 흰 배경의 Inter, 히어로 다음의 이모지 기능 카드 3개, 하나의 보더-라디우스, 하나의 부드러운 그림자, 그리고 '미래를 만드세요'라는 헤드라인. 실무자들은 AI 출력이 AI처럼 보이지 않게 하려고 많은 시간과 토큰을 쓰지만, 그 목표는 형언할 수 없는 취향으로 취급된다. 우리는 반대로 주장한다. 'AI 룩'은 유한하고 열거 가능한 통계적 기본값의 집합이며, 따라서 측정 가능하다. 기여는 셋이다. (i) 여덟 패밀리(색·타이포·레이아웃·여백·표면·모션·카피·AI 자기참조)에 걸친 27개 디자인 흔적(tell)의 분류체계, 각각 모델 수렴의 문서화된 메커니즘과 사람이 만든 인터페이스의 공개된 장인 규칙에 근거한다. (ii) 원시 CSS와 유틸리티 클래스를 모두 해석하고 Tell Score를 [0,100]로 보고하는 무의존성 정적 검출기(낮을수록 좋음). (iii) 하네스, CLI, MCP 서버, 드롭인 프롬프트 모듈, 누구나 룩을 감사하고 예방할 수 있다. 페이지의 콘텐츠와 구조를 고정하고 흔적이 되는 속성만 바꾸는 교란-통제 리팩터에서, 전형적 AI 랜딩 페이지의 Tell Score는 77(F등급)에서 0(A등급)으로 떨어진다. 6개 페이지 코퍼스에서 검출기는 AI-기본형과 디자인된 페이지를 겹침 없이 분리한다(가장 가까운 쌍이 47점 차이). 마지막은 인식론이다. 기계-기본값의 판별자는 아름다움의 심판이 아니며, 취향은 중앙값이 담을 수 없는 체험된 선택의 압축이고, 모두가 같은 점수를 최적화하면 2차 수렴의 위험이 있다, 우리의 동반 연구가 반복 창작에서 발견한 바로 그 동질화다. Refactoring UI, 람스, 닐슨, Stripe/Linear/Vercel의 프리미엄 UI 장인정신, 토스의 라이팅 원칙, Anthropic 프런트엔드 미학 쿡북에 근거한다. 검출기가 모든 것을 AI로 부르는 기계가 아니라 판별자임을 입증하려 실제 top 사이트 202개를 렌더링해 사람이 만든 디자인의 경험적 분포를 학습하고, 보상 craft가 화장적 기본값을 상쇄하는 craft-크레딧 모델로 재보정했다: 202개 사이트는 중앙값 0점(93%가 A등급), AI 기본형은 35~59점이며 이제 라이브 URL도 감사한다. 브랜드 보라는 tell이 아니고(Stripe는 123개를 쓰고도 0점) Inter도 tell이 아니다(Linear는 실제 타입 시스템과 함께 쓴다). 끝으로 부정적 도구를 긍정적 도구로 바꾸기 위해 이 사이트들 중 199개를 다시 렌더링해 실제 컴포넌트별 CSS를 라이트·다크 양쪽에서 읽어, 측정된 스펙 카탈로그를 만든다: 프라이머리 버튼의 라디우스는 8~12px의 부드러운 둥근형과 완전한 알약형으로 갈리고, 타입 스케일은 64/48/32/16px 부근에 자리하며, 다크 배경은 순수한 검정이 아니라 살짝 색조가 들어간 근사-검정이고, 액센트 색조는 사이트마다 완전히 분산되어 있다(색조 자체는 결코 tell이 아니다). 끝으로 현장 검증을 더한다: 스스로 'AI 같은 룩 금지' 디자인 원칙 문서를 쓴 실제 상용 코드베이스 두 곳이 같은 흔적과 여섯 가지를 더 독립적으로 지목했고, 이를 새 패밀리(AI 자기참조: 스파클 아이콘, 'AI'·모델명 라벨, 미리보기-삽입 흐름)와 다색 pill·마이크로 타이포·이중 박스로 반영해 분류체계가 27개 흔적이 된다. 코드·데이터·202사이트 코퍼스·199사이트 스펙 카탈로그·그림·하네스는 공개되어 있다.

오픈 연구 · MITIOV Labs · 오픈 연구 · 12pp

수렴 압력: 반복 창작에서의 AI 매개 문화 동질화 측정

Han Kim

생성 AI는 개인의 창의성을 높이는 동시에 집단의 다양성을 낮춘다(Doshi & Hauser 2024). 자기 출력으로 재학습한 모델은 붕괴한다(Shumailov et al. 2024). 우리는 이 둘을 하나의 동역학 질문으로 합친다. 공유된 모델이 반복적 창작 과정을 매개할 때, 집단의 다양성은 세대를 거치며 줄어드는가, 무엇이 그것을 추동하는가? 다양한 창작자 페르소나 풀이 세대마다 산출물 하나씩 만든다(창작자 12 × 세대 6 × 테마 3). 네 조건: 혼자 쓰기, 정적 AI 보조, 집단의 최근 출력을 되비추는 AI 보조, 그리고 같은 반영 루프에 다양한 어드바이저를 더한 조건. 결과는 깨끗한 해리다. AI 보조 자체는 다양성을 평평하게 둔다(초기 분산의 100~102% 유지, p≥0.40). 반영 루프는 비등방성 보정 분산을 약 10~12% 떨어뜨린다. 뻔한 해법은 실패한다. 단일 라운드에서 다양성을 지켜주는 다양 어드바이저 패널이, 반복 하에서는 붕괴를 막지 못한다(오히려 약간 더 잃음, p=0.007). 이 수렴은 의미적이지 어휘적이 아니다(distinct-2는 평평해서 n-그램 지표로는 전혀 안 보인다). 그리고 집단 다양성이 떨어지는 바로 그 조건에서 개인 품질이 오른다. 가위가 가장 날카로운 지점이다. 최소 수축사상 모델이 바닥까지의 감쇠를 예측하고, 어드바이저 다양성이 끌림 계수에 들어갈 수 없는 이유를 설명한다. 집단을 동질화하는 것은 AI 보조가 아니라 군중을 되비추는 AI의 루프이며, AI를 더 다양하게 만드는 것으로는 그 루프가 깨지지 않는다. 음성 결과 보존, 시드·스냅샷·명령 하나 재현은 공개 레포에.

오픈 벤치마크 · MITIOV Labs · 오픈 벤치마크 · 12pp

판사가 틀릴 때: 진실 기준으로 채점한 LLM-as-Judge 신뢰도 벤치마크

Han Kim

"LLM-as-judge"(강한 LLM으로 다른 모델 출력을 채점)는 이제 사실상의 표준 평가법이지만, 판사 자신이 편향을 지닌 오류 가능한 모델이다. 대부분의 연구는 판사를 사람 또는 다른 판사와의 일치로 측정하는데, 둘 다 편향에 오염된다(평가자와 판사가 같은 편향을 공유해 함께 틀릴 수 있다). 우리는 대신 진실(ground truth) 기준으로 측정한다. 각 항목에 정답과 그럴듯한 오답을 두어 정확도를 직접 채점하고 편향을 분리한다. 프런티어 판사 5종(GPT-4o, GPT-4o-mini, GPT-4.1, Claude Sonnet 4.6, Claude Haiku 4.5)에서 깨끗한 해리(dissociation)를 발견했다. 39개 객관 항목(흔한 오해·직관 반하는 추론 함정 포함)에서 판사들은 거의 완벽(진실정확도 97–100%)하고, 위치 편향이 없으며, 오답을 권위적으로 늘여도 속지 않고, 자기일관·캘리브레이션이 우수하다. 그러나 둘 다 정답이고 길이만 다른 29개 동점 쌍에서는 같은 판사들이 더 긴 답을 압도적으로 선호한다(72–100%). 자기가문 선호 프로브는 길이 교란을 차이-의-차이로 보정하면 +13pt의 완만한 자기가문 편향을 보인다. 고전적 위치 편향은 사실상 해결되었고, 고전적 verbosity 편향은 강하게 살아있되 품질이 같을 때만 드러난다. 실용적 결론: LLM-as-judge는 검증 가능한 과제엔 신뢰할 수 있고, 실질보다 분량을 보상하는 주관적 채점엔 위험하다.

오픈소스 · ISCIOV Labs · 기함 · 오픈소스 · 13pp

0x: 토큰 효율적이고 검증 가능한 LLM 코드 생성 타깃 언어

Han Kim

거대언어모델은 출력 토큰의 대부분을 프레임워크 보일러플레이트에 쓴다. 우리는 하나의 소스를 React·Vue 3·Svelte 5·React Native·Express·Terraform로 컴파일하는 컴팩트한 AI-First 언어 0x를 제시하고, 코드 생성 타깃이 답해야 할 두 질문을 던진다. 첫째 효율: 실제 BPE 토크나이저로 앱 10개를 측정한 결과 0x 소스는 컴파일된 React보다 2.41× 작다(58% 토큰 절감; Vue 1.88×, Svelte 1.80×) — 보수적 하한이다. 둘째 적중 가능성: 단순 프롬프트로는 gpt-4o가 5개 과제 중 1개만 유효한 0x를 컴파일했다. 학습 데이터에 없는 언어의 문법을 모르기 때문이다 — 친숙함이 압축을 이긴다. 결정적으로 모든 실패는 의미가 아닌 문법 오류였다. 문법은 구조 강제로 제거되는 바로 그것이므로, 우리는 스키마로 보장된 AST로 생성을 제약하고 정규 0x를 직접 렌더링했다. 실제 컴파일러 작업(JS 스프레드 desugaring, 엄격 동등 정규화, 렉서 버그 2건 수정 — 303개 테스트 전부 통과)과 결합해 첫 시도 컴파일이 1/5 → 5/5로 올랐고, 새로운 8개 과제에서도 7/8을 유지했다. 컴팩트 DSL을 실용적 LLM 타깃으로 만드는 것은 프롬프트가 아니라 검증기로서의 컴파일러다. 전부 오픈소스이며 명령 하나로 재현된다.

오픈 벤치마크 · v1.0IOV Labs · 오픈 벤치마크 · 16pp

이미지 생성 모델의 한국어 텍스트 렌더링: 재현 가능한 문자오류율(CER) 벤치마크

Han Kim

생성 이미지 속 텍스트를 다루는 벤치마크는 대개 영어로 작성돼, 모델이 실제로 무너지는 문자 체계를 가린다. 우리는 그중 하나를 직접 측정한다. 텍스트에 강한 이미지 생성 모델 9종에게 한국어(한글) 문구 14개를 동일한 흰 포스터에 그리게 하고, 그려진 글자를 비전언어모델(GPT-4o)로 받아 적어 문자오류율(CER)로 채점했다. 세 모델(recraft-v4-pro, seedream-5, nano-banana-pro)은 모든 프롬프트를 완벽히 그렸고(CER 0.000, 14/14), 뚜렷한 품질 구배가 뒤따른다. 최하위 imagen-4는 한글을 아예 쓰지 못한다. 14개 전부를 그럴듯한 한글 모양의 횡설수설로 그렸고(0/14, 평균 CER 1.33), 커피 한 잔을 소동석 고려아는 아라해안으로 바꿨다. 핵심 발견은, 영어 텍스트 렌더링 실력이 한국어로 전이되지 않으며 영어만으로 만든 벤치마크에는 보이지 않는다는 것이다. 하니스는 공개돼 있고 명령 하나로 돌며, 저장된 결과에서 이어 실행되고, 프롬프트·모델을 쉽게 늘릴 수 있다.

사전등록 · v1.0IOV Labs · 워킹페이퍼 (v1.0) · 21pp

2026 대한민국 지방선거 예측: 재현 가능한 여론조사·펀더멘털 결합 모델과 사전등록 검증 프로토콜

Han Kim

2026년 6월 3일 제9회 전국동시지방선거의 16개 광역단체장 선거를, 구조적 펀더멘털 추정(각 지역의 2022년 양자 득표율을 로짓 척도에서 2026년 환경으로 스윙)과 방식 정규화 여론조사 집계를 여론조사 수 가중 계층 축소로 결합해 예측한다. 결과 불확실성은 3단계 오차 구조(전국 ⊕ 클러스터 ⊕ 지역)와 두꺼운 꼬리(정규혼합 ≈ 스튜던트-t) 혁신을 가진 5만 회 상관 몬테카를로로 전파해, 전국 단위 여론조사 오차가 상관된 권역을 함께 움직이도록 했다. 파이프라인은 시드 고정으로 비트 단위 재현된다. 중심 추정은 민주당 16석 중 12석(90% 구간 8–15), 진짜 경합 5곳과 보수 우세 2곳이다. 오차 모델은 2022년 최종 전화면접 여론조사로 캘리브레이션(편향 −0.1pt, MAE 2.2pt)했고, 핵심 실패 모드인 상관 여론조사 편향은 ±4pt 시나리오 스윕으로 정량화했다. 병행한 실리콘 샘플링 실험(LLM 페르소나 유권자단)은 음성 결과로 보고한다. 본 논문은 사전등록 형식으로, 예측을 결과 전에 확정하고 투표 마감 후 고정된 스크립트로 채점한다.

소식

연구소 소식

·1 분 분량

거울 속의 심사자: LLM 평가자는 제 가족을 편애하지만, 왜인지는 모른다

IOV LABS가 LLM-as-judge의 자기선호를 현행 프런티어 4종에서, 블라인드로, 편향과 품질을 가르는 합의 기준선과 함께 감사했다. 모든 심사자가 자기 가족을 중립 패널보다 약 14포인트 높게 준다. 그러나 표준 설명은 틀렸다: 한 모델만 제 출력을 알아보는데 넷 다 편애한다. 편향은 암묵적이다. 그 아래엔 먼저 보인 답이 63% 승, 길이가 승패를 0.98로 예측한다.

LLM 심사자기선호리더보드
자세히 보기
·1 분 분량

유창함은 예측이 아니다: LLM은 미래를 동전보다 못 맞힌다

IOV LABS가 LLM 확률 예측을 오염될 수 없는 유일한 방식으로 감사했다. 모델을 학습 컷오프 이후 사건에서만 채점한다. 컷오프 이후 예측은 Brier 0.296으로 항상 50% 찍기보다 나쁘다. 사건보다 늦은 모델은 거의 완벽히 '기억'하지만, 같은 모델이 '예측'하면 동전 수준으로 붕괴한다. 그리고 단순 통계모델이 실제 선거에서 모든 LLM을 이긴다.

예측캘리브레이션Brier 점수
자세히 보기
·3 분 분량

정답을 아는 모델은 당신이 아무리 우겨도 접지 않는다

IOV LABS가 2023년 아첨(sycophancy) 실험을, 재고와 굴복을 가르는 통제와 함께 현재 Claude 3종에 다시 돌렸다. 모델이 아는 사실에 가한 500회의 사회적 압력에서 굴복은 정확히 한 번. Sonnet 4.6과 Opus 4.8은 정답을 결코 버리지 않았고, 어떤 모델도 터무니없는 답은 받아들이지 않았다. 굴복은 이제 능력이 높을수록 줄어 예전 결과를 뒤집는다.

아첨LLM 행동AI 안전
자세히 보기
전체 소식 보기

선언

우리가 참이라 믿는 것들.

로드맵이 아니라 신념입니다. 우리가 무엇을 만들지, 그리고 무엇을 만들지 않을지를 조용히 결정하는 네 가지 믿음.

01

가치는 출력이 아니라 의미다

기계는 출력을 끝없이 만들어낼 수 있습니다. 출력이 사람의 필요와 만날 때 비로소 가치가 됩니다. 우리가 가장 마음 쓰는 것은 그 마지막 한 걸음입니다.

02

정직한 숫자가 인상적인 숫자보다 오래 남는다

감탄을 위해 고른 숫자는 의심받는 순간 사라집니다. 우리는 재현 가능한 것을, 실패한 것까지 포함해 보고합니다. 시간이 쌓아주는 것은 진실뿐이기 때문입니다.

03

느리더라도, 열린 곳에서 짓는다

오래 가는 일은 좀처럼 처음부터 눈부시지 않습니다. 우리는 인내하는 길을 택하고, 누구나 지켜보고 묻고 참여할 수 있는 곳에서 만듭니다.

04

두 언어, 하나의 기술

만들 가치가 있는 생각은 널리 나눌 가치가 있습니다. 우리는 영어와 한국어로 동시에 일합니다. 번역이 아니라, 같은 일을 들여다보는 두 개의 창으로.