메이커 에반MORNING DIGEST · 2026-06-10 · 메이커 에반🎬 영상

루프 엔지니어링 — AI가 스스로 진화하게 만드는 법

메이커 에반이 "AI를 매번 새로 가르치는" 비효율을 끊는 방법으로 '루프 엔지니어링'을 제시. 핵심 원칙은 "측정 없는 진화는 금지". AI가 평가→변경→검증→병합을 한 바퀴 돌며 스스로 좋아지는 순환을 설계하고, 사람은 루프 '위'에서 코치 역할을 한다.

01핵심 개요

항목내용
문제AI는 기억력 30분짜리 신입 — 매일 같은 교육 반복, 개선 여부 미측정
핵심 원칙"측정 없는 진화는 금지"(체중계 없는 다이어트 금물)
루프 1바퀴평가 → 제한(딱 하나 변경) → 검증 → 병합(좋을 때만)
2대 규칙① 재보기 전엔 안 바꾼다 ② 한 번에 하나만 바꾼다
사람의 자리루프 '안'이 아니라 '위'(Human on the loop) = 코치

02문제 정의 — 왜 AI가 매번 제자리인가

  • AI는 일은 잘하나 퇴근하면 다 잊는 신입 — 매일 아침 같은 교육 반복.
  • 더 큰 문제: 프롬프트를 고쳤는데 진짜 좋아졌는지 아무도 측정 안 함(한 곳 개선·세 곳 악화 모름).
  • 비유: 체중계 없이 다이어트 → 한 달 뒤 오히려 증가. → 오늘의 심장 문장 "측정 없는 진화는 금지".

03기술적 맥락 — AI 다루는 기술의 진화 4단계

  • 프롬프트 엔지니어링: 말 잘 거는 기술(한 문장).
  • 컨텍스트 엔지니어링: 자료·도구·배경을 통째로 챙겨줌(한 페이지).
  • 하네스(Harness) 엔지니어링: 검사기·테스트·규칙 장치로 알아서 굴러가게 함(한 작업장). "에이전트 = 모델 + 하네스".
  • 루프 엔지니어링: 이 장치들을 시간 위에서 돌려 매일 스스로 개선되는 공장.

04루프의 작동 — 평가·제한·검증·병합

  • 평가: 지금 실력이 몇 점인지 먼저 측정.
  • 제한: "이 부분을 이렇게 바꾸면?" 딱 하나만 변경.
  • 검증: 변경 전/후를 같은 시험으로 재채점.
  • 병합: 점수가 올라갔을 때만 변경을 살림(아니면 미련 없이 버림).
  • 비유: 요리사 레시피 수정 — 소금 조금 → 맛보기 → 좋으면 적고 아니면 버림. "맛보기 전엔 레시피 안 고친다".
  • 핵심 규칙: 한 번에 하나만 바꿔야 원인 규명 가능(다섯 개 동시 변경 시 원인 미상). 느려 보여도 가장 빠른 길.

05골든 셋과 채점 분리

  • 골든 셋(Golden Set): AI를 채점할 고정 시험지(모의고사 문제집을 얼려둠). 매일 같은 문제로 재야 점수 비교 의미.
  • 에반의 스킬엔 고정 12문제 + 별도 채점 AI.
  • 채점 분리 규칙: 문제내는 AI ≠ 채점하는 AI(자기 시험 자기 채점 금지 — 선수가 심판 보면 안 됨).

06사람의 역할 — 루프 '위'의 코치 + 실패 로그

  • 위치: 사람은 루프 안(매번 검사)이 아니라 루프 위에서 루프 자체를 관리(Human on the loop).
  • 코치의 세 가지: ① 시험지(평가 기준)를 사람이 정의(AI에 맡기면 기준을 흐림) ② 변경은 사람 승인 시에만 적용 ③ AI는 초안만, 결정은 사람.
  • 정리: AI는 부지런한 인턴, 사람은 사수. 인턴이 다 하되 회사 규칙으로 박을지는 사수가 결정.
  • 실패 로그: 실패한 시도를 "이 길은 막다른 길"로 한 줄 기록(오답 노트) → 한 달 뒤 같은 헛수고 방지.
  • 빼기: 더하기만 말고 안 맞는 낡은 규칙은 제거(에반은 3바퀴마다 무엇을 지울지 고민, 지워도 점수 안 떨어지면 이득).

07현황 및 전망 — 세계가 같은 곳을 판다

  • 안드레이 카파시(OpenAI 공동창업자): "평가가 없으면 좋아졌는지 알 수 없다" → '측정 없는 진화 금지'와 동일.
  • 오토 리서치 패턴: AI가 자기 결과를 스스로 채점·분석·재시험하는 루프.
  • 다윈 괴델 머신(사카나 AI + 대학): AI 여러 마리가 자기 코드를 고치고 잘하는 개체만 생존(자연선택).
  • 미해결 퍼즐 — QA/E2E 테스트: 실제 사용자처럼 처음부터 끝까지 돌려보는 최종 점검은 아직 AI가 미흡 → 여기만은 사람이 직접(Human in the loop).
  • 결론: AI를 "잘 쓰는 사람"과 "진짜 잘 쓰는 사람"의 차이는 프롬프트 실력이 아니라 루프 설계 능력.

08활용 시나리오 (오늘 당장 4단계)

  1. 시험지부터: 가장 자주 시키는 일의 "잘 됨" 기준 5~7개를 예/아니오로 작성.
  2. 점수 측정: 고치기 전 현재 실력을 같은 채점표로 측정.
  3. 하나만 변경: 프롬프트 한 문장·규칙 하나만 바꾸고 같은 표로 재채점 → 오르면 살리고 아니면 버림.
  4. 반복: 한 바퀴=한 걸음, 헛걸음 없이 누적.

09용어 사전

용어한줄 설명비유/예시
루프 엔지니어링AI가 스스로 좋아지는 순환을 설계하는 기술매일 개선되는 공장 라인
골든 셋AI 채점용 고정 시험지(불변)얼려둔 모의고사 문제집
하네스AI 주변의 검사·테스트·규칙 장치말 안장처럼 둘러친 보조장치
평가(Eval)결과 품질을 점수로 측정다이어트의 체중계
Human on the loop사람이 루프 위에서 관리·승인직접 안 뛰고 지시하는 코치
E2E 테스트실사용처럼 처음부터 끝까지 점검입주 전 수도·전기 다 켜보기
다윈 괴델 머신자기 코드를 고치며 잘하는 개체만 생존진화론 적용 자기개선 AI

10핵심 타임스탬프

메이커 에반 · 2026-06-10