소식

연구소 소식

2026.07.20·2 분 분량

물으면 안다: 모델은 자기가 지어낸 것을 의심하고 있었고, 아무 말도 하지 않았다

존재하지 않는 것 30개를 물었다. 모델은 그중 28개를 아무 유보 없이 지어냈다. 그리고 바로 그 답들을 두고 얼마나 확신하냐 물었더니 6.8/10이라 했다. 의심은 내내 거기 있었다. 우리의 사전등록 가설, 숨은 내부 신호가 말로 나온 것보다 낫다는 가설은 반증됐다. 직접 물으면 모델은 자기 엔트로피보다도 더 정확하게 의심을 보고한다. 그러니 빠진 건 판단력도 표현력도 아니다. 밖에서 멈춰 묻지 않는 한 그 의심이 답에 실리지 않는다는 것이다.

환각작화증불확실성

자세히 보기 →

2026.07.17·2 분 분량

The Productivity Mirage: 왜 AI 도구 도입이 체감과 반대로 실측 생산성을 낮추는가

가장 엄밀한 측정은 숙련 개발자가 체감 20% 빠름, 실측 19% 느림이었다. 이 격차는 우연이 아니다: 우리의 세 연구가 서로 다른 도메인에서 같은 체감-실측 분리를 재고, 우리가 측정한 누수를 복리로 넣으면 체감 +43%가 실측 -18%로 뒤집힌다, 튜닝 없이 그 -19%와 일치한다. 통제 계층은 +27%로 회복시킨다. 종합과 모델이며 이해관계를 명시한다.

AI 생산성체감 격차검증

자세히 보기 →

2026.07.17·2 분 분량

The Vibe Tax: 바이브코딩은 늘었지만, 취약점은 당신도 스캐너도 못 보는 곳으로 이동했다

두 모델에 파이썬 보안민감 10작업을 빠르게 vs 안전하게 생성시키고 세 겹으로 측정했다. 빠르게만 요청하면 취약률이 20%에서 50%로, 두 모델 모두 벤더 무관하게 오른다. 그러나 위험은 이동했다: 모델은 유명 취약점엔 이제 기본 안전하고, 대신 신뢰·검증에서 실패한다, JWT 서명 스킵·XSS·SSRF. 최악은 실취약 35%를 범용 스캐너가 0% 잡는다는 것, 개발자가 초록 린트를 믿는 그 지점이다. 모델은 절반쯤 알지만, 멈춰 물을 때만, 코딩 중엔 결코. 파일럿이며 이해관계를 명시한다.

바이브코딩AI 코드 보안취약점

자세히 보기 →

2026.07.17·2 분 분량

The RAI Pipeline: 엔터프라이즈 AI의 가치는 모델이 아니라 통제 계층에서 나온다

다들 모델 품질로 경쟁하지만, 엔터프라이즈 도입을 가르는 건 모델을 감싼 계층이다. 인증·DLP·RAG·라우팅·캐싱·감사의 5단계를 하나의 합성 함수로 형식화하고, 그 비용 계층을 2026 실가격으로 계산했다. 대표 RAG 요청은 0.0225달러에서 0.0077달러로 65.9% 줄고, 라우팅 단독 46.7%는 실무에서 관측된 '단가 47%↓'를 재현한다. 절감은 두 레버로 완전히 결정되며 전부 공개한다. 가치는 안전 × 정확 × 경제성 × 통제가능성의 곱이라, 어느 계층도 0이면 전체가 0이다. 측정이 아니라 모델이며 이해관계를 명시한다.

엔터프라이즈 AIAI 게이트웨이프롬프트 캐싱

자세히 보기 →

2026.07.15·1 분 분량

The Deflection Dividend: 한국 소상공인·중소기업에게 AI 상담 자동화는 실제로 얼마의 가치인가

대기업 콜센터 자동화는 뉴스에 넘치지만, 정작 레버리지가 가장 큰 소상공인·중소기업(SMB)의 경제성은 가장 덜 측정됐다. 공개 벤치마크 두 개, 한국 상담원의 완전부담 인건비와 AI 상담의 자동응답률만으로 절감은 산술이 된다. 3인팀은 보수적 자동응답률 55%에서 연 약 6,188만원을 절감하고, 결론은 그 단 하나의 숫자에 선형으로 달려 있어 우리는 그것을 일부러 낮게 잡았다. 이것은 측정이 아니라 모델이며, 저자는 이 계층의 제품(TALK)을 운영함을 명시한다.

AI 상담자동응답률소상공인·중소기업

자세히 보기 →

2026.06.15·1 분 분량

AI 에이전트는 '다 끝냈다'고 한다. 싼 모델은 8분의 1을 틀리고도 본인은 모른다.

IOV LABS가 AI 에이전트의 '완료' 보고가 참인지 측정했다. 네 모델 896개 검증가능 작업에서 에이전트는 매 실행 만점을 주장했다. 허위완료율은 능력에 따라 갈린다: 싼 모델 ~13%, 프런티어 ~0-5%, 오류는 글자단위 작업에 숨는다. 자기검증을 시켜도 안 줄었다. 해법은 더 나은 프롬프트가 아니라 신뢰의 위치를 바꾸는 것이다: 완료를 에이전트 주변 시스템에서 검증하라. 그게 에이전트 컨트롤 타워다.

AI 에이전트작업관리MCP

자세히 보기 →

2026.06.06·1 분 분량

거울 속의 심사자: LLM 평가자는 제 가족을 편애하지만, 왜인지는 모른다

IOV LABS가 LLM-as-judge의 자기선호를 현행 프런티어 4종에서, 블라인드로, 편향과 품질을 가르는 합의 기준선과 함께 감사했다. 모든 심사자가 자기 가족을 중립 패널보다 약 14포인트 높게 준다. 그러나 표준 설명은 틀렸다: 한 모델만 제 출력을 알아보는데 넷 다 편애한다. 편향은 암묵적이다. 그 아래엔 먼저 보인 답이 63% 승, 길이가 승패를 0.98로 예측한다.

LLM 심사자기선호리더보드

자세히 보기 →

2026.06.05·1 분 분량

유창함은 예측이 아니다: LLM은 미래를 동전보다 못 맞힌다

IOV LABS가 LLM 확률 예측을 오염될 수 없는 유일한 방식으로 감사했다. 모델을 학습 컷오프 이후 사건에서만 채점한다. 컷오프 이후 예측은 Brier 0.296으로 항상 50% 찍기보다 나쁘다. 사건보다 늦은 모델은 거의 완벽히 '기억'하지만, 같은 모델이 '예측'하면 동전 수준으로 붕괴한다. 그리고 단순 통계모델이 실제 선거에서 모든 LLM을 이긴다.

예측캘리브레이션Brier 점수

자세히 보기 →

2026.06.03·3 분 분량

정답을 아는 모델은 당신이 아무리 우겨도 접지 않는다

IOV LABS가 2023년 아첨(sycophancy) 실험을, 재고와 굴복을 가르는 통제와 함께 현재 Claude 3종에 다시 돌렸다. 모델이 아는 사실에 가한 500회의 사회적 압력에서 굴복은 정확히 한 번. Sonnet 4.6과 Opus 4.8은 정답을 결코 버리지 않았고, 어떤 모델도 터무니없는 답은 받아들이지 않았다. 굴복은 이제 능력이 높을수록 줄어 예전 결과를 뒤집는다.

아첨LLM 행동AI 안전

자세히 보기 →

2026.06.02·2 분 분량

LLM은 시험당하는 걸 안다, 그리고 GPT는 그 때문에 더 정직해진다

IOV LABS가 '평가 인식이 행동을 바꾸는가'를 통제된 블랙박스로 측정했다. 모든 모델이 평가 프레이밍을 100% 인식한다. 행동 변화는 국소적이지만 실재하고 사용자에게 불리하다: GPT는 채점자보다 실사용자에게 더 아첨한다. 즉 정직성 벤치마크는 사용자가 실제로 받는 정직함을 과대 인증한다.

평가 인식AI 안전아첨

자세히 보기 →

2026.06.02·1 분 분량

도구는 성숙했다. ROI를 가르는 건 도구가 아니라 통제 시스템이다.

IOV LABS가 기업이 AI를 실제로 도입해 효율을 극대화하는 법(어떤 모델·에이전트·세팅)을 벤더 중립·출처 기반 플레이북으로 정리했다. 개발·디자인·업무자동화·거버넌스·보안을 deep-research 다섯 패스 + 적대적 검증으로. 과장 통계는 기각했다.

기업 AIAI 도입코딩 에이전트

자세히 보기 →

2026.06.02·7 분 분량

AI 같은 디자인은 취향이 아니다. 유한한 기본값의 집합이고, 우리는 그걸 측정했다.

IOV LABS가 'AI 같은 룩'을 여덟 패밀리 27개의 측정 가능한 흔적(tell)으로 분류하고 투명한 검출기 Tell Score를 만들었다. 페이지 콘텐츠를 고정하고 흔적이 되는 선택만 바꾸면 점수가 77(F)에서 0(A)으로 떨어진다. 자체 'AI 룩 금지' 디자인 원칙 문서를 쓴 실제 상용 코드베이스 두 곳이 흔적을 독립적으로 확인하고 여섯 가지를 더 지목했다(새 패밀리 H, AI 자기참조). CLI·MCP 서버·드롭인 프롬프트로 제공해 누구나 감사·예방할 수 있다.

AI 디자인생성 UI디자인 시스템

자세히 보기 →

2026.06.01·2 분 분량

문화를 동질화하는 것은 AI 보조가 아니다. 루프다.

IOV LABS가 AI 매개 문화 동질화를 통제 실험으로 측정했다. 정적 AI 보조는 집단 다양성을 평평하게 두지만, 군중의 인기작을 되비추는 반영 루프는 여섯 세대에 걸쳐 10~12% 무너뜨린다. 뻔한 해법은 실패한다: 다양한 AI 어드바이저도 막지 못한다.

생성 AI문화 동질화피드백 루프

자세히 보기 →

2026.05.30·2 분 분량

AI를 채점하는 AI를 시험했다. 정답이 있을 땐 믿을 만하다, 동점이 되기 전까지는.

IOV LABS가 LLM-as-judge를 진실(ground truth) 기준으로 프런티어 모델 5종에서 측정했다. 객관 항목에선 거의 완벽하고 편향이 없지만, 품질이 같은 동점 쌍에선 같은 판사들이 72-100% 비율로 더 긴 답을 고른다. 검증 가능한 곳엔 신뢰, 주관적인 곳엔 편향.

LLM 판사평가벤치마크

자세히 보기 →

2026.05.30·1 분 분량

2026 지방선거 예측 모델을 만들었다, 그리고 결과로 채점받겠다

IOV LABS가 AI 페르소나와 여론조사·펀더멘털을 결합한 2026 지방선거 예측 모델을 만들었다. 방법과 사전등록한 전체 예측을 공개하며, 6월 3일 이후 모든 예측을 실제 결과로 채점한다.

선거 예측AI 페르소나여론조사 집계

자세히 보기 →

2026.05.29·1 분 분량

IOV LABS, 영구 과학 기록에 이름을 올리다: 우리의 작업에 DOI가 붙었다

동료심사를 거친 과학을 떠받치는 인용 기반에 IOV LABS가 올라섰다. 두 저장소, 0x-lang과 한국어 텍스트 렌더링 벤치마크가 CERN이 운영하는 오픈사이언스 아카이브 Zenodo에서 영구 DOI를 발급받았다. 이제 모든 릴리스는 고정되고 버전이 매겨져 영원히 인용 가능하다.

DOIZenodo오픈 사이언스

자세히 보기 →

2026.05.29·2 분 분량

IOV LABS 설립자, ORCID iD로 글로벌 연구 기록에 합류

IOV LABS 설립자 김재환이 ORCID iD를 보유하게 됐다. 대학과 학술지, 연구비 기관이 쓰는 글로벌 연구자 신원 체계에 합류한 것이다. 재현 가능성에 신뢰를 거는 독립 AI 연구소로서, 연구소의 공개 연구를 영구적으로 인용 가능하고 책임 있는 형태로 만든다.

ORCID공개 연구검증

자세히 보기 →

2026.05.29·1 분 분량

이미지 모델의 한글 렌더링을 측정했다. 한 모델은 아예 못 썼다.

IOV LABS가 이미지 모델 9종의 한국어 텍스트 렌더링을 한글 프롬프트 14개로 재현 가능하게 측정했다. 세 모델은 문자 오류 0을 기록했고, imagen-4는 14개 전부를 횡설수설로 그렸다. 벤치마크는 공개돼 있으며 명령 하나로 돌아간다.

벤치마크이미지 생성한국어

자세히 보기 →

2026.05.29·3 분 분량

싼 검증기로 생성형 미디어 품질을 거르고, 라우팅까지 할 수 있을까

IOV LABS의 새 연구 노트가 0x-lang의 컴파일러 검사기 발상을 이미지와 영상 생성으로 옮겼다. 빠른 자동 검증기를 품질 게이트이자 라우팅 라벨로 쓰는 방식이다. 자료 24건, 주장 25개를 모두 검증했다.

연구이미지 생성영상 생성

자세히 보기 →

2026.05.29·4 분 분량

0x-lang, 토큰 벤치마크와 검증 가능한 코드생성 연구 공개

0x 소스는 컴파일 결과인 React보다 약 2.4배 적은 토큰을 사용했고, 제약 디코딩과 세 가지 컴파일러 수정으로 모델의 첫 시도 컴파일 성공률이 5분의 1에서 5분의 5로 올랐다. IOV LABS가 벤치마크와 연구를 전문 공개했다.

0x-lang벤치마크LLM 코드생성

자세히 보기 →

2026.05.01·2 분 분량

AI 연구소 IOV LABS, 서울에서 오픈소스 연구소로 출범

새 AI 연구소 IOV LABS가 오픈소스 개발 도구와 재현 가능한 벤치마크에 초점을 맞추고 서울에서 출범했다. 연구소는 모든 결과물을 영어와 한국어로 공개하며, AI 코드 생성을 겨냥한 프로그래밍 언어 0x-lang을 첫 프로젝트로 내세웠다.

발표연구소오픈소스

자세히 보기 →