"AI를 도입하라"는 조언 대부분은 도구 목록이다. 그건 틀린 목록이다. 우리는 deep-research 다섯 패스(다중 소스 검색 + 적대적 3표 교차검증)와 직접 스팟 검증으로 벤더 중립 플레이북을 만들었고, 핵심 결론은 어떤 도구에 관한 것이 아니다. 도구는 이미 성숙했고, ROI를 가르는 건 그 도구를 둘러싼 통제 시스템이지 도구 자체가 아니다.
정직한 숫자
채택은 보편화됐다. 2025 DORA 보고서는 기술 전문가 90%가 AI를 쓰고 80% 이상이 생산성 향상을 체감한다고 한다. 그러나 체감과 실제의 괴리가 크다. 숙련 오픈소스 개발자 무작위 대조 시험(METR)에서 이들은 AI로 오히려 19% 느려졌는데, 본인은 20% 빨라졌다고 믿었다. 조직 차원에선 S&P Global 기준 2025년 42%의 기업이 AI 프로젝트 대부분을 폐기했고(전년의 2배 이상), Gartner 조사상 Microsoft 365 Copilot 파일럿의 6%만 대규모로 확장됐다. 널리 인용되는 "MIT 95% 파일럿 실패", "IBM 25% ROI" 수치는 적대적 검증으로 출처 추적이 안 돼 플레이북에서 뺐다.
파일럿은 쉽고 프로덕션·ROI는 어렵다. 차별점은 통제 시스템이다. 자동 테스트, 성숙한 버전 관리, 빠른 피드백, 인간 리뷰.
네 영역, 상황별로 디테일하게
개발: 난이도로 모델을 고른다(15분 미만 작업은 93% 찍는 싼 모델, 복잡 리팩터는 상위 모델 + 사람). 일상은 $20 티어, 고강도는 $200 티어. 모든 AI PR은 냄새 체크리스트(좀비 코드, 과잉 추가성, 환각 API)로 게이트.
디자인·마케팅: 전형적 "AI 룩"은 프롬프트가 모호할 때 모델이 학습 데이터의 통계적 중앙값을 뱉기 때문이다. 해법은 명시적 텍스트 디자인 시스템, 네거티브 제약(보라 그라데이션·기본 폰트 금지), 구체 레퍼런스, 사람 후보정.
업무 자동화: RAG도 환각을 못 막는다(스탠퍼드 기준 법률 RAG 도구 17~33% 환각). 검색 품질을 1급 지표로 두고, 빌드 vs 바이를 의사결정 트리로 정하며, 고위험 동작엔 사람을 루프에 둔다.
거버넌스·보안: 자체보고가 아니라 객관 지표로 측정하고, OWASP LLM Top 10·NIST AI RMF에 시스템을 매핑하며, EU AI Act·GDPR 22조·한국 개인정보보호법 37조의2(자동화 결정 거부·설명 요구권, 2024년 3월 시행) 의무를 점검한다.
플레이북 전문과 PDF, 출처는 모두 공개되어 있다.