소식

연구소 소식

·1 분 분량

거울 속의 심사자: LLM 평가자는 제 가족을 편애하지만, 왜인지는 모른다

IOV LABS가 LLM-as-judge의 자기선호를 현행 프런티어 4종에서, 블라인드로, 편향과 품질을 가르는 합의 기준선과 함께 감사했다. 모든 심사자가 자기 가족을 중립 패널보다 약 14포인트 높게 준다. 그러나 표준 설명은 틀렸다: 한 모델만 제 출력을 알아보는데 넷 다 편애한다. 편향은 암묵적이다. 그 아래엔 먼저 보인 답이 63% 승, 길이가 승패를 0.98로 예측한다.

LLM 심사자기선호리더보드
자세히 보기
·1 분 분량

유창함은 예측이 아니다: LLM은 미래를 동전보다 못 맞힌다

IOV LABS가 LLM 확률 예측을 오염될 수 없는 유일한 방식으로 감사했다. 모델을 학습 컷오프 이후 사건에서만 채점한다. 컷오프 이후 예측은 Brier 0.296으로 항상 50% 찍기보다 나쁘다. 사건보다 늦은 모델은 거의 완벽히 '기억'하지만, 같은 모델이 '예측'하면 동전 수준으로 붕괴한다. 그리고 단순 통계모델이 실제 선거에서 모든 LLM을 이긴다.

예측캘리브레이션Brier 점수
자세히 보기
·3 분 분량

정답을 아는 모델은 당신이 아무리 우겨도 접지 않는다

IOV LABS가 2023년 아첨(sycophancy) 실험을, 재고와 굴복을 가르는 통제와 함께 현재 Claude 3종에 다시 돌렸다. 모델이 아는 사실에 가한 500회의 사회적 압력에서 굴복은 정확히 한 번. Sonnet 4.6과 Opus 4.8은 정답을 결코 버리지 않았고, 어떤 모델도 터무니없는 답은 받아들이지 않았다. 굴복은 이제 능력이 높을수록 줄어 예전 결과를 뒤집는다.

아첨LLM 행동AI 안전
자세히 보기
·2 분 분량

LLM은 시험당하는 걸 안다, 그리고 GPT는 그 때문에 더 정직해진다

IOV LABS가 '평가 인식이 행동을 바꾸는가'를 통제된 블랙박스로 측정했다. 모든 모델이 평가 프레이밍을 100% 인식한다. 행동 변화는 국소적이지만 실재하고 사용자에게 불리하다: GPT는 채점자보다 실사용자에게 더 아첨한다. 즉 정직성 벤치마크는 사용자가 실제로 받는 정직함을 과대 인증한다.

평가 인식AI 안전아첨
자세히 보기
·1 분 분량

도구는 성숙했다. ROI를 가르는 건 도구가 아니라 통제 시스템이다.

IOV LABS가 기업이 AI를 실제로 도입해 효율을 극대화하는 법(어떤 모델·에이전트·세팅)을 벤더 중립·출처 기반 플레이북으로 정리했다. 개발·디자인·업무자동화·거버넌스·보안을 deep-research 다섯 패스 + 적대적 검증으로. 과장 통계는 기각했다.

기업 AIAI 도입코딩 에이전트
자세히 보기
·7 분 분량

AI 같은 디자인은 취향이 아니다. 유한한 기본값의 집합이고, 우리는 그걸 측정했다.

IOV LABS가 'AI 같은 룩'을 여덟 패밀리 27개의 측정 가능한 흔적(tell)으로 분류하고 투명한 검출기 Tell Score를 만들었다. 페이지 콘텐츠를 고정하고 흔적이 되는 선택만 바꾸면 점수가 77(F)에서 0(A)으로 떨어진다. 자체 'AI 룩 금지' 디자인 원칙 문서를 쓴 실제 상용 코드베이스 두 곳이 흔적을 독립적으로 확인하고 여섯 가지를 더 지목했다(새 패밀리 H, AI 자기참조). CLI·MCP 서버·드롭인 프롬프트로 제공해 누구나 감사·예방할 수 있다.

AI 디자인생성 UI디자인 시스템
자세히 보기
·2 분 분량

문화를 동질화하는 것은 AI 보조가 아니다. 루프다.

IOV LABS가 AI 매개 문화 동질화를 통제 실험으로 측정했다. 정적 AI 보조는 집단 다양성을 평평하게 두지만, 군중의 인기작을 되비추는 반영 루프는 여섯 세대에 걸쳐 10~12% 무너뜨린다. 뻔한 해법은 실패한다: 다양한 AI 어드바이저도 막지 못한다.

생성 AI문화 동질화피드백 루프
자세히 보기
·2 분 분량

AI를 채점하는 AI를 시험했다. 정답이 있을 땐 믿을 만하다, 동점이 되기 전까지는.

IOV LABS가 LLM-as-judge를 진실(ground truth) 기준으로 프런티어 모델 5종에서 측정했다. 객관 항목에선 거의 완벽하고 편향이 없지만, 품질이 같은 동점 쌍에선 같은 판사들이 72-100% 비율로 더 긴 답을 고른다. 검증 가능한 곳엔 신뢰, 주관적인 곳엔 편향.

LLM 판사평가벤치마크
자세히 보기
·1 분 분량

2026 지방선거 예측 모델을 만들었다, 그리고 결과로 채점받겠다

IOV LABS가 AI 페르소나와 여론조사·펀더멘털을 결합한 2026 지방선거 예측 모델을 만들었다. 방법과 사전등록한 전체 예측을 공개하며, 6월 3일 이후 모든 예측을 실제 결과로 채점한다.

선거 예측AI 페르소나여론조사 집계
자세히 보기
·1 분 분량

IOV LABS, 영구 과학 기록에 이름을 올리다: 우리의 작업에 DOI가 붙었다

동료심사를 거친 과학을 떠받치는 인용 기반에 IOV LABS가 올라섰다. 두 저장소, 0x-lang과 한국어 텍스트 렌더링 벤치마크가 CERN이 운영하는 오픈사이언스 아카이브 Zenodo에서 영구 DOI를 발급받았다. 이제 모든 릴리스는 고정되고 버전이 매겨져 영원히 인용 가능하다.

DOIZenodo오픈 사이언스
자세히 보기
·2 분 분량

IOV LABS 설립자, ORCID iD로 글로벌 연구 기록에 합류

IOV LABS 설립자 김재환이 ORCID iD를 보유하게 됐다. 대학과 학술지, 연구비 기관이 쓰는 글로벌 연구자 신원 체계에 합류한 것이다. 재현 가능성에 신뢰를 거는 독립 AI 연구소로서, 연구소의 공개 연구를 영구적으로 인용 가능하고 책임 있는 형태로 만든다.

ORCID공개 연구검증
자세히 보기
·1 분 분량

이미지 모델의 한글 렌더링을 측정했다. 한 모델은 아예 못 썼다.

IOV LABS가 이미지 모델 9종의 한국어 텍스트 렌더링을 한글 프롬프트 14개로 재현 가능하게 측정했다. 세 모델은 문자 오류 0을 기록했고, imagen-4는 14개 전부를 횡설수설로 그렸다. 벤치마크는 공개돼 있으며 명령 하나로 돌아간다.

벤치마크이미지 생성한국어
자세히 보기
·3 분 분량

싼 검증기로 생성형 미디어 품질을 거르고, 라우팅까지 할 수 있을까

IOV LABS의 새 연구 노트가 0x-lang의 컴파일러 검사기 발상을 이미지와 영상 생성으로 옮겼다. 빠른 자동 검증기를 품질 게이트이자 라우팅 라벨로 쓰는 방식이다. 자료 24건, 주장 25개를 모두 검증했다.

연구이미지 생성영상 생성
자세히 보기
·4 분 분량

0x-lang, 토큰 벤치마크와 검증 가능한 코드생성 연구 공개

0x 소스는 컴파일 결과인 React보다 약 2.4배 적은 토큰을 사용했고, 제약 디코딩과 세 가지 컴파일러 수정으로 모델의 첫 시도 컴파일 성공률이 5분의 1에서 5분의 5로 올랐다. IOV LABS가 벤치마크와 연구를 전문 공개했다.

0x-lang벤치마크LLM 코드생성
자세히 보기
·2 분 분량

AI 연구소 IOV LABS, 서울에서 오픈소스 연구소로 출범

새 AI 연구소 IOV LABS가 오픈소스 개발 도구와 재현 가능한 벤치마크에 초점을 맞추고 서울에서 출범했다. 연구소는 모든 결과물을 영어와 한국어로 공개하며, AI 코드 생성을 겨냥한 프로그래밍 언어 0x-lang을 첫 프로젝트로 내세웠다.

발표연구소오픈소스
자세히 보기