벤치마크이미지 생성한국어텍스트 렌더링OCR

이미지 모델의 한글 렌더링을 측정했다. 한 모델은 아예 못 썼다.

IOV LABS가 이미지 모델 9종의 한국어 텍스트 렌더링을 한글 프롬프트 14개로 재현 가능하게 측정했다. 세 모델은 문자 오류 0을 기록했고, imagen-4는 14개 전부를 횡설수설로 그렸다. 벤치마크는 공개돼 있으며 명령 하나로 돌아간다.

생성 이미지 속 텍스트를 다루는 벤치마크는 대개 영어로 작성돼, 모델이 실제로 무너지는 문자 체계를 가린다. IOV LABS는 그중 하나를 직접 측정했다. 텍스트에 강한 이미지 모델 9종에게 한국어 문구 14개를 같은 조건의 포스터에 그리게 하고, 그려진 글자를 GPT-4o로 다시 읽어 문자 오류율로 채점했다. 결과는 분명한 순위와, 하나의 노골적인 실패였다.

0 / 14

imagen-4 정확 렌더

오류 0 모델

9 x 14

모델 x 한글 프롬프트

Nine image models rendering the same Korean prompts — 같은 프롬프트를 9개 모델이 그린 결과, 14개를 순환한다. 라벨은 모델과 CER.

무엇을 측정했나

모든 프롬프트에 같은 지시를 줬다. 흰 포스터에 목표 한글만 검은 산세리프로 그리라는 것이다. 문구는 간단한 인사부터 값을과 맑음의 겹받침, 떡볶이의 된소리, 완결된 문장, 장소명, 숫자가 섞인 한국어 같은 어려운 사례까지 폭을 뒀다. 각 모델이 그린 것을 GPT-4o가 받아 적고, 문자 오류율로 목표와 비교했으며 공백은 무시했다. 0이면 완벽한 렌더링이다.

결과

세 모델이 모든 프롬프트를 완벽하게 그렸다. recraft-v4-pro, seedream-5, nano-banana-pro가 14개 전부 오류 0이었다. gpt-image-2와 recraft-v4가 근소한 차이로 뒤를 이었다. 더 싸거나 오래된 모델은 어려운 문자열에서 흔들렸고, ideogram-v3는 14개 중 5개에 그쳤다.

recraft-v4-pro

14/14

nano-banana-pro

14/14

gpt-image-2

12/13

flux-2-flash

9/14

ideogram-v3

5/14

imagen-4

0/14

14개 중 정확히 그린 한글 수 (높을수록 좋음)

The prompt 닭갈비 맛집 rendered by nine models — 가장 어려운 프롬프트 닭갈비 맛집을 9개 모델로 비교.

노골적인 실패

가장 두드러진 것은 imagen-4다. 14개 중 0개, 평균 오류율이 1을 넘었다. 단순한 오타가 아니라 그럴듯한 한글 모양의 횡설수설을 만들어냈다. 커피 한 잔은 소동석 고려아는 아라해안으로, 맑음은 옹반재다로 나왔다. 영어 텍스트에는 뛰어나면서 한글은 아예 쓰지 못하는 모델이 있다는 뜻이며, 영어만으로 만든 벤치마크라면 결코 드러나지 않을 격차다.

imagen-4 renders Korean text as gibberish — imagen-4: 라벨은 의도한 문구, 이미지는 실제로 그린 결과.

영어 텍스트 렌더링은 한국어로 전이되지 않는다. 측정해야만 보인다.

공개와 재현

벤치마크는 공개돼 있으며 fal.ai와 OpenAI 키만 있으면 명령 하나로 돈다. 하니스는 저장된 결과에서 이어 실행되어 실패한 셀만 재시도하고, 프롬프트와 모델 목록은 쉽게 늘릴 수 있다. 이는 생성형 미디어의 검증 가능한 품질을 다룬 연구소 노트에서 한국어 텍스트 렌더링을 빈 땅으로 지목한 데 이은 첫 구체 실험이다.

The benchmark leaderboard printed in the terminal — 하니스는 전체 리더보드를 터미널에 출력한다. 명령 하나로 재현된다.

GitHub (직접 실행)연구 노트