Claude Fable 5 안전장치 논란 — 강한 모델을 누구에게, 얼마나 솔직하게 열 것인가
안될공학(패치) · 2026-06-13 · Anthropic이 "일반 공개 모델 중 가장 강력하다"는 Claude Fable 5를 공개. 4월 비공개였던 Mithos가 안전장치를 붙여 봉인 해제됐으나, 출시 이틀 만에 '보이지 않는 개입' 논란으로 공식 사과·정책 수정. AI 경쟁축이 모델 성능 → 접근권·안전장치·데이터 처리로 이동.
01핵심 개요
항목
내용
발표 주체
Anthropic (Claude Fable 5 / Mithos 5)
스펙
컨텍스트 100만 토큰, 출력 12.8만 토큰, 입력 $10·출력 $50(토큰당)
전사
4월 비공개였던 Mithos가 두 달 만에 Fable 5로 일반 공개
안전장치
별도 AI 분류기(Safety Classifier)가 위험 요청 사전 차단
사건
출시 이틀 만에 '보이지 않는 개입' 논란 → 공식 사과·정책 수정
핵심 메시지
경쟁은 '더 강한 모델' 아닌 '누구에게·어떻게·얼마나 솔직하게' 여느냐의 싸움
02두 모델 구조 — 같은 두뇌, 다른 운영 구조
Fable 5 = 일반 공개 모델: API·챗 인터페이스로 누구나 사용
Mithos 5 = 같은 계열이지만 '프로젝트 글라스윙'으로 승인된 소수 고객만 접근
동일 스펙·동일 가격이나 운영 구조가 다름: Fable 5에는 Safety Classifier 부착, Mithos 5는 승인 범위 내 일부 안전장치 해제
관전 포인트 = 스펙표가 아니라 "누가 쓸 수 있고, 어떤 안전장치가 붙고, 데이터는 어떻게 다뤄지는가"
03왜 나눴나 — 분리의 3대 이유
사이버 보안: 고성능 모델은 취약점 탐색에 강력 → 방어자엔 유용하나 공격자에겐 위험
생물학·화학: 신약·실험 설계 지원이 위험 지식 접근으로 오용될 소지
디스틸레이션(증류): 큰 모델 출력으로 다른 모델을 학습 → 공공안전 + 자사 IP(경쟁사 추격 차단)가 동시에 걸림
핵심: 같은 안전장치 하나가 공공안전·국가안보·IP 보호를 한꺼번에 다루는 구조
04안전장치 2층 구조 — 보이는 층 vs 보이지 않는 층
1층(보이는 장치): 별도 AI 분류기가 요청을 먼저 판단 → 위험 영역이면 응답을 Claude Opus 4.8로 폴백, 사용자에게 전환 사실 고지
2층(보이지 않는 장치): '프런티어 LLM 개발' 요청엔 사용자에게 알리지 않는 개입이 들어가 있었음
보이지 않는 개입 3종(시스템 카드 명시):
- 프롬프트 모디피케이션: 요청 앞뒤에 숨은 지시를 붙여 답변 방향 변경 - 스티어링 벡터: 특정 레이어 활성값에 손대 답을 특정 방향으로 기울임 - PEFT(부분 파인튜닝, LoRA류): 일부 파라미터만 미세조정해 답을 다르게 만듦
치명적 문제: 모델이 "답할 수 없다"가 아니라 겉으론 답하되, 그게 최선의 답인지 흐려진 답인지 사용자가 알 수 없음 → 개발자·연구자의 모델 평가 자체가 무의미해짐
05논란과 수정 — 이틀 만의 후퇴
격렬한 반발 → Anthropic "균형을 잘못 잡았다" 공식 사과
수정: '프런티어 LLM 개발' 세이프가드도 사용자가 볼 수 있는 Opus 4.8 폴백 방식으로 전환
Anthropic 초기 판단의 논리: 보이는 장치는 투명하나 공격자에게 우회 힌트 제공, 보이지 않는 장치는 방어엔 유리하나 사용자 신뢰를 훼손
숫자의 함정: 안전장치 발동은 전체 세션 5% 미만이나, 보안·코딩·AI개발처럼 강한 능력이 가장 필요한 사용자가 안전장치와 가장 자주 충돌. 출시 직후 무해 요청까지 잡는 오탐 발생(보수적 튜닝 인정)
06데이터 보존 — 가장 현실적인 기업 도입 장벽
Fable 5·Mithos 5 전 트래픽에 30일 데이터 보존 의무 부과, ZDR(무보존 옵션) 사용 불가
Anthropic 설명: 학습 아닌 보안 목적 한정(신종 제일브레이크 탐지·분산 공격 분석·오탐 감소), 접근 로그화·30일 후 삭제
실제 사례: GitHub Copilot에서 다른 Claude(Opus 4.8·Sonnet 4.5)는 ZDR로 무보존, Fable 5만 30일 보존 필수 → 동의 안 하는 조직엔 Fable 5 메뉴 미노출
한국 기업 직격: 삼성·SK·LG 내부 코드·설계, 금융사 고객 데이터, 보안사 로그를 넣을 때 "성능이 최고인가"보다 "30일 보존이 보안규정과 충돌하는가"가 먼저 걸림
역설적 기회: 국내 클라우드·보안 기업엔 라우팅·권한분리·로그·민감데이터 통제 영역이 확대
07현황 및 전망 — 오해 정리와 관전 포인트
오해1 정정: 안전장치가 붙었다고 Fable 5가 약한 건 아님 — 100만 토큰·며칠짜리 에이전트 작업까지 일반 공개 모델 중 최강