AI한테 템플릿을 여러 벌 찍게 했는데 정작 좋고 나쁨을 내가 판단 못 했다

자동 생성은 됐지만 자가 검증은 안 됐다 — 자율 루프의 전제

계획은 야심찼다.

주제를 자유롭게 만들게 하고, 그 주제로 템플릿을 여러 벌 뽑고, 클로드가 스스로 결과를 검증하고 개선하는 루프를 돌리는 것. 세 단계가 다 자동으로 돌면 내가 할 일은 처음과 끝에 게이트만 서면 됐다.

생성은 됐다. 여러 벌 뽑는 것도 됐다.

template-spec → template-gen → template-lint로 이어지는 스킬 파이프라인을 만들었다. spec이 카테고리와 스타일 명세를 잡고, gen이 그 명세대로 단일 HTML을 생성하고, lint가 렌더링 결과를 채점하는 구조였다. 첫 번째 템플릿이 나왔다. “Aurora” — 다크 오로라 무드의 SaaS 랜딩 페이지.

그런데 보고 나서 손이 멈췄다.

“어디서 많이 본거같애. 근데 이건 내가 평가가 안 돼서 큰일이다.”

이유가 사실 아주 단순했다. 나는 디자인을 모른다. 뭐가 개선된 건지 모른다는 게 핵심이었다. 여러 벌이 우르르 나왔는데, 이 중에 어느 게 좋은 디자인인지 내가 말을 못 했다. “더 좋아진 건지 그냥 달라진 건지”가 내 눈에는 구분이 안 됐다.

“개선해”를 시켰다. 결과가 나왔다. 여전히 달라진 건지 좋아진 건지 모르겠다. 루프가 헛돌았다.

여기서 한 가지가 명확해졌다. 평가 기준이 체크리스트로 떨어지는 것과 아닌 것이 완전히 다르게 작동한다.

template-lint를 설계하면서 평가를 두 층으로 나눴다. 하나는 프로그램이 확인할 수 있는 것들 — 렌더 에러가 있냐, 가로 스크롤이 생기냐, 외부 의존이 있냐. 이건 체크리스트다. 통과/탈락이 명확하고 클로드가 스스로 돌릴 수 있다. 실제로 Aurora 템플릿의 치명 결함 체크는 완벽하게 자동화됐다.

다른 하나는 “시각적으로 좋냐”였다. 클로드가 스크린샷을 직접 보고 루브릭으로 90점을 줬다. 숫자는 나왔다. 근데 “이걸 더 좋게 고쳐”가 먹히려면 “어느 방향으로 바꿔야 점수가 오르는지”를 내가 지시할 수 있어야 한다. 나는 디자인을 모르니까 그 방향을 못 준다. 채점자인 클로드도 자기가 만든 걸 자기가 채점하면 방향을 잃는다.

자율 루프의 전제 조건이 여기서 드러났다.

결론이 한 줄로 나왔다.

자율성의 전제는 검증 가능한 기준이다. 기준이 주관적이면 자율 루프는 굴러가지 않는다.

AI한테 자율적으로 뭔가를 시키고 싶다면, 먼저 “뭐가 잘된 건지”를 체크리스트로 적을 수 있어야 한다. 그게 안 적히면 — 디자인 미감처럼 — 생성은 시켜도 검증과 개선은 못 시킨다. 자율성은 생성력이 아니라 평가 기준에서 나온다.

그래서 다음 수를 바꿨다. 내가 판단을 못 하면 — 판단을 다른 쪽에서 끌어오면 된다.