0x: 토큰 효율적이고 검증 가능한 LLM 코드 생성 타깃 언어

저자: Han Kim
논문: IOV Labs · 기함 · 오픈소스 · 13pp · 2026-05-28

초록

거대언어모델은 출력 토큰의 대부분을 프레임워크 보일러플레이트에 쓴다. 우리는 하나의 소스를 React·Vue 3·Svelte 5·React Native·Express·Terraform로 컴파일하는 컴팩트한 AI-First 언어 0x를 제시하고, 코드 생성 타깃이 답해야 할 두 질문을 던진다. 첫째 효율: 실제 BPE 토크나이저로 앱 10개를 측정한 결과 0x 소스는 컴파일된 React보다 2.41× 작다(58% 토큰 절감; Vue 1.88×, Svelte 1.80×) — 보수적 하한이다. 둘째 적중 가능성: 단순 프롬프트로는 gpt-4o가 5개 과제 중 1개만 유효한 0x를 컴파일했다. 학습 데이터에 없는 언어의 문법을 모르기 때문이다 — 친숙함이 압축을 이긴다. 결정적으로 모든 실패는 의미가 아닌 문법 오류였다. 문법은 구조 강제로 제거되는 바로 그것이므로, 우리는 스키마로 보장된 AST로 생성을 제약하고 정규 0x를 직접 렌더링했다. 실제 컴파일러 작업(JS 스프레드 desugaring, 엄격 동등 정규화, 렉서 버그 2건 수정 — 303개 테스트 전부 통과)과 결합해 첫 시도 컴파일이 1/5 → 5/5로 올랐고, 새로운 8개 과제에서도 7/8을 유지했다. 컴팩트 DSL을 실용적 LLM 타깃으로 만드는 것은 프롬프트가 아니라 검증기로서의 컴파일러다. 전부 오픈소스이며 명령 하나로 재현된다.

키워드

large language models
code generation
domain-specific languages
token efficiency
constrained decoding
structured output
compilers
verification
reproducibility

PDF 내려받기 GitHub npm 웹사이트