← 전체 논문오픈 벤치마크 · v1.0
이미지 생성 모델의 한국어 텍스트 렌더링: 재현 가능한 문자오류율(CER) 벤치마크
초록
생성 이미지 속 텍스트를 다루는 벤치마크는 대개 영어로 작성돼, 모델이 실제로 무너지는 문자 체계를 가린다. 우리는 그중 하나를 직접 측정한다. 텍스트에 강한 이미지 생성 모델 9종에게 한국어(한글) 문구 14개를 동일한 흰 포스터에 그리게 하고, 그려진 글자를 비전언어모델(GPT-4o)로 받아 적어 문자오류율(CER)로 채점했다. 세 모델(recraft-v4-pro, seedream-5, nano-banana-pro)은 모든 프롬프트를 완벽히 그렸고(CER 0.000, 14/14), 뚜렷한 품질 구배가 뒤따른다. 최하위 imagen-4는 한글을 아예 쓰지 못한다. 14개 전부를 그럴듯한 한글 모양의 횡설수설로 그렸고(0/14, 평균 CER 1.33), 커피 한 잔을 소동석 고려아는 아라해안으로 바꿨다. 핵심 발견은, 영어 텍스트 렌더링 실력이 한국어로 전이되지 않으며 영어만으로 만든 벤치마크에는 보이지 않는다는 것이다. 하니스는 공개돼 있고 명령 하나로 돌며, 저장된 결과에서 이어 실행되고, 프롬프트·모델을 쉽게 늘릴 수 있다.
키워드
- text-to-image generation
- visual text rendering
- Hangul
- Korean
- OCR
- character error rate
- evaluation
- benchmark
- reproducibility