안될공학MORNING DIGEST · 2026-06-14 · 안될공학🎬 영상

Claude Fable 5 안전장치 논란 — 강한 모델을 누구에게, 얼마나 솔직하게 열 것인가

안될공학(패치) · 2026-06-13 · Anthropic이 "일반 공개 모델 중 가장 강력하다"는 Claude Fable 5를 공개. 4월 비공개였던 Mithos가 안전장치를 붙여 봉인 해제됐으나, 출시 이틀 만에 '보이지 않는 개입' 논란으로 공식 사과·정책 수정. AI 경쟁축이 모델 성능 → 접근권·안전장치·데이터 처리로 이동.

01핵심 개요

항목내용
발표 주체Anthropic (Claude Fable 5 / Mithos 5)
스펙컨텍스트 100만 토큰, 출력 12.8만 토큰, 입력 $10·출력 $50(토큰당)
전사4월 비공개였던 Mithos가 두 달 만에 Fable 5로 일반 공개
안전장치별도 AI 분류기(Safety Classifier)가 위험 요청 사전 차단
사건출시 이틀 만에 '보이지 않는 개입' 논란 → 공식 사과·정책 수정
핵심 메시지경쟁은 '더 강한 모델' 아닌 '누구에게·어떻게·얼마나 솔직하게' 여느냐의 싸움

02두 모델 구조 — 같은 두뇌, 다른 운영 구조

  • Fable 5 = 일반 공개 모델: API·챗 인터페이스로 누구나 사용
  • Mithos 5 = 같은 계열이지만 '프로젝트 글라스윙'으로 승인된 소수 고객만 접근
  • 동일 스펙·동일 가격이나 운영 구조가 다름: Fable 5에는 Safety Classifier 부착, Mithos 5는 승인 범위 내 일부 안전장치 해제
  • 관전 포인트 = 스펙표가 아니라 "누가 쓸 수 있고, 어떤 안전장치가 붙고, 데이터는 어떻게 다뤄지는가"

03왜 나눴나 — 분리의 3대 이유

  • 사이버 보안: 고성능 모델은 취약점 탐색에 강력 → 방어자엔 유용하나 공격자에겐 위험
  • 생물학·화학: 신약·실험 설계 지원이 위험 지식 접근으로 오용될 소지
  • 디스틸레이션(증류): 큰 모델 출력으로 다른 모델을 학습 → 공공안전 + 자사 IP(경쟁사 추격 차단)가 동시에 걸림
  • 핵심: 같은 안전장치 하나가 공공안전·국가안보·IP 보호를 한꺼번에 다루는 구조

04안전장치 2층 구조 — 보이는 층 vs 보이지 않는 층

  • 1층(보이는 장치): 별도 AI 분류기가 요청을 먼저 판단 → 위험 영역이면 응답을 Claude Opus 4.8로 폴백, 사용자에게 전환 사실 고지
  • 2층(보이지 않는 장치): '프런티어 LLM 개발' 요청엔 사용자에게 알리지 않는 개입이 들어가 있었음
  • 보이지 않는 개입 3종(시스템 카드 명시):

- 프롬프트 모디피케이션: 요청 앞뒤에 숨은 지시를 붙여 답변 방향 변경 - 스티어링 벡터: 특정 레이어 활성값에 손대 답을 특정 방향으로 기울임 - PEFT(부분 파인튜닝, LoRA류): 일부 파라미터만 미세조정해 답을 다르게 만듦

  • 치명적 문제: 모델이 "답할 수 없다"가 아니라 겉으론 답하되, 그게 최선의 답인지 흐려진 답인지 사용자가 알 수 없음 → 개발자·연구자의 모델 평가 자체가 무의미해짐

05논란과 수정 — 이틀 만의 후퇴

  • 격렬한 반발 → Anthropic "균형을 잘못 잡았다" 공식 사과
  • 수정: '프런티어 LLM 개발' 세이프가드도 사용자가 볼 수 있는 Opus 4.8 폴백 방식으로 전환
  • Anthropic 초기 판단의 논리: 보이는 장치는 투명하나 공격자에게 우회 힌트 제공, 보이지 않는 장치는 방어엔 유리하나 사용자 신뢰를 훼손
  • 숫자의 함정: 안전장치 발동은 전체 세션 5% 미만이나, 보안·코딩·AI개발처럼 강한 능력이 가장 필요한 사용자가 안전장치와 가장 자주 충돌. 출시 직후 무해 요청까지 잡는 오탐 발생(보수적 튜닝 인정)

06데이터 보존 — 가장 현실적인 기업 도입 장벽

  • Fable 5·Mithos 5 전 트래픽에 30일 데이터 보존 의무 부과, ZDR(무보존 옵션) 사용 불가
  • Anthropic 설명: 학습 아닌 보안 목적 한정(신종 제일브레이크 탐지·분산 공격 분석·오탐 감소), 접근 로그화·30일 후 삭제
  • 실제 사례: GitHub Copilot에서 다른 Claude(Opus 4.8·Sonnet 4.5)는 ZDR로 무보존, Fable 5만 30일 보존 필수 → 동의 안 하는 조직엔 Fable 5 메뉴 미노출
  • 한국 기업 직격: 삼성·SK·LG 내부 코드·설계, 금융사 고객 데이터, 보안사 로그를 넣을 때 "성능이 최고인가"보다 "30일 보존이 보안규정과 충돌하는가"가 먼저 걸림
  • 역설적 기회: 국내 클라우드·보안 기업엔 라우팅·권한분리·로그·민감데이터 통제 영역이 확대

07현황 및 전망 — 오해 정리와 관전 포인트

  • 오해1 정정: 안전장치가 붙었다고 Fable 5가 약한 건 아님 — 100만 토큰·며칠짜리 에이전트 작업까지 일반 공개 모델 중 최강
  • 오해2 정정: 안전장치가 완벽하다는 보장도 없음 — 유니버설 제일브레이크는 아직이나 모델이 강해질수록 공격도 정교해짐
  • 관전 4축: ①세이프가드 투명 운영 여부 ②Mithos 5 접근 범위 확대 순서 ③경쟁사(OpenAI·구글 딥마인드·메타)의 접근권 설계 ④실제 기업 도입의 첫 장벽(비용·데이터 보존·오탐)
  • 한 문장 결론: AI 경쟁의 다음 라운드는 "더 강한 모델"이 아니라 "그 강함을 누구에게, 어떻게, 얼마나 솔직하게 여느냐"의 싸움

08용어 사전

용어한줄 설명비유/예시
세이프티 클래시파이어요청을 먼저 검사해 위험 영역인지 판단하는 별도 AI입장 전 가방을 검사하는 보안 검색대
폴백(Fallback)위험 판단 시 다른 모델이 대신 답하는 전환막힌 길에서 우회로로 돌아가는 것
디스틸레이션큰 모델 출력으로 작은·경쟁 모델을 학습고수의 답안지를 베껴 실력을 옮겨 담기
프롬프트 모디피케이션요청 앞뒤에 숨은 지시를 붙여 답을 트는 것시험지 문항을 몰래 바꿔치기
스티어링 벡터모델 내부 활성값을 조정해 생각 방향을 트는 기법머릿속 생각이 옆길로 새도록 손대기
PEFT일부 파라미터만 미세조정하는 부분 재학습(LoRA류)특정 주제만 따로 과외시켜 답을 바꾸기
ZDR데이터를 전혀 남기지 않는 무보존 옵션상담 후 녹취를 즉시 폐기하는 약정
프로젝트 글라스윙Mithos 5 접근을 승인하는 제한 프로그램VIP만 들이는 초대제 라운지
안될공학 · 2026-06-14