01핵심 개요
| 항목 | 내용 |
|---|
| 채널 | 안될공학 |
| 모델 | DeepSeek V4 Pro |
| 핵심 이벤트 | 75% 할인을 연구·영구화 → API 가격 1/4 수준 |
| 비교 | GPT 5.5 대비 약 1/10, Gemini 3.5 Flash 대비도 저렴 |
| 기술 핵심 | 하이브리드 어텐션 + KV 캐시 10%로 압축 |
02핵심 내용 구조
- 가격 충격 — 75% 한시 할인을 연구화 → 토큰당 가격 1/4 영구화
- MoE 아키텍처 — 1.6T 파라미터 중 49B만 활성화하는 전문가 혼합 구조
- 하이브리드 어텐션 — CSA(상대적 덜 압축) + HCA(강하게 압축) 이중 처리
- KV 캐시 10% — V3.2 대비 KV 메모리 10% 수준만 사용 (128배 압축)
- FLOPs 27% 감소 — 1M 토큰 컨텍스트에서 V3.2 대비 토큰당 27% 적은 연산
- 하웨이 어센드 동행 — 알고리즘 + Ascend 950 칩 공동 최적화
03기술적 맥락
- 프리필 vs 디코드 — 입력 이해(KV 생성) + 토큰 한개씩 출력(KV 캐시 활용)
- KV 캐시 부담 — 100만 토큰 컨텍스트 = HBM 비싸게 점유 → 동시 사용자 감소
- 메모리 위계 이동 — HBM → DRAM → NAND 단계로 KV 분산 저장 전략 확산
- CSA (Compressed Sparse Attention) — 듬성듬성 어텐션 + 가벼운 압축
- HCA (Heavily Compressed Attention) — 128배 압축 후 덴스 어텐션
- 에이전틱 AI 시대 — 멀티턴 대화 누적 → 컨텍스트·KV 폭증 → 메모리 압박
04전략적 의미
- AI 경쟁의 질문 변화 — "누가 똑똑한가" → "실제 쓸 만한가"
- 개발자·기업 친화 — 에이전틱 AI 24시간 운영 가능한 비용 구조
- 중국 AI 자립 — 화웨이 Ascend 칩 + DeepSeek 모델로 NVIDIA 의존 탈피
- 저가 SaaS 침투 — AI 기능 탑재한 SaaS의 단가 경쟁 가속화
- 메모리 디자인 핵심 — 프로세서 위계 아키텍처 재설계가 산업 화두
05핵심 워크플로우
| 단계 | 기존 방식 | DeepSeek V4 Pro |
|---|
| 어텐션 | 전체 컨텍스트 동일 가중치 | CSA + HCA 이중 처리 |
| KV 저장 | 전체 토큰 KV 보관 | 핵심만 보관·128배 압축 |
| 정밀도 | FP16 | NVFP4·MVFP4 등 저정밀 |
| 하드웨어 | NVIDIA H100 등 GPU | 화웨이 Ascend 950 공동 최적화 |
| 서빙 | 사용자당 KV 큼 → 동시처리 적음 | KV 작음 → 다수 사용자 서빙 가능 |
06활용 시나리오
- 에이전트 24시간 운영 — 비용 부담 적어 백그라운드 에이전트 상시 가동
- 장문맥 RAG — 100만 토큰까지 저렴하게 처리 → 책 여러 권 동시 참조
- 저렴한 SaaS 내장 — 적당 성능 모델로 단가 절감 → AI 기능 보편화
- 개발 부담 완화 — Open Router 등 게이트웨이 통해 다중 모델 사용 시 비용 분산
- 국내 기업 대응 — 한국 메모리 3사가 향후 압축 어텐션용 메모리 설계 협력 기회
07현황 및 전망
- 딥시크 V4 Pro — 1.6T 파라미터, 49B 활성화, 100만 토큰 컨텍스트
- 로이터 보도 — 바이트댄스·텐센트·알리바바가 화웨이 Ascend 도입
- 공급망 변화 — 중국 빅테크가 NVIDIA → Ascend로 전환 가속
- 미국 모델 우위 지속 — OpenAI·Anthropic·Google 최고 성능 영역 유지
- 시장 양극화 — 최고 성능(미국) + 저렴 운영(중국) 양분 구조 형성
08용어 사전
| 용어 | 한줄 설명 | 비유/예시 |
|---|
| MoE | Mixture of Experts, 전문가 혼합 구조 | 분야별 전문 의사들 중 필요한 사람만 호출 |
| KV 캐시 | 과거 토큰의 Key·Value를 저장하는 메모리 | 회의록을 메모해 두고 발언 때마다 참고 |
| 프리필 | 입력 전체를 한번에 이해해 KV 생성 단계 | 책을 처음 펼쳐서 통독하는 단계 |
| 디코드 | 토큰 하나씩 순차 생성하는 단계 | 한 단어씩 적어가며 답을 완성하는 단계 |
| CSA | Compressed Sparse Attention | 듬성듬성 + 가볍게 압축한 기억 회상 |
| HCA | Heavily Compressed Attention | 128배 압축한 장기 기억 회상 |
| FP4/FP8 | 4·8비트 부동소수점 저정밀 연산 | 사진 해상도를 줄여 용량 절감 |
| HBM | High Bandwidth Memory | GPU 옆 고속 데이터 공급 메모리 |
| 화웨이 Ascend | 화웨이의 NVIDIA 대체 AI 칩 | Ascend 950, Atlas 950 등 |
| 토큰 | LLM이 다루는 텍스트 최소 단위 | 단어 또는 글자 조각 |