YouTube 리뷰 정리 · Bart Slodyczka · 2026-06-05

Gemma 4 12B, 16GB 맥미니에서 의외로 쓸 만하다

구글의 신규 오픈소스 모델을 보급형 M4 Mac Mini(16GB)에서 실전 테스트 — 성능·메모리·OCR·코딩 검증
12B
파라미터 (120억)
7.56GB
모델 다운로드 용량
31K
16GB 장비 컨텍스트 한계
1.8x
MTP 응답 가속 (최대)
01

Gemma 4 제품군 — 12B의 위치

E2B
스마트폰용
E4B
스마트폰용
12B
이번 출시 · 16GB 장비 타깃
26B
로드에만 18GB 필요
31B
고성능 워크스테이션용

구글 주장: 12B는 코딩·에이전트 툴 호출·추론 벤치마크에서 26B 대비 대부분 10% 이내 격차 — 크기는 절반 이하. 영상 1:04

02

핵심 제약 — 컨텍스트 길이와 RAM

4K 토큰 (기본)
약 8GB
31K 토큰 (한계)
약 12GB — 스위트 스폿
131K 토큰 (최대)
26GB+ — 16GB 장비 불가

OS가 2~3GB를 상시 점유. 실측: 모델 로드만으로 메모리 6GB → 14.9GB. Claude Code 등 에이전트 도구는 기본 프롬프트만 약 3만 토큰이라 31K 설정으로는 연결 즉시 에러. 영상 4:49

03

두 가지 구조적 변화

멀티모달 인코더 제거

이미지·음성
별도 인코더
LLM
이미지·음성
LLM (인코더 내장)

중간 변환 단계 제거 → 지연 감소, 정보 손실 감소. 텍스트·이미지·오디오 직접 처리. 영상 8:01

멀티 토큰 예측 (MTP)

프리필
입력 소화
디코딩
MTP가 가속

초소형 보조 모델이 다음 단어를 미리 추측(적중률 60~70%), 본 모델은 검증만 → 응답 생성 최대 1.5~1.8배 가속. 영상 10:49

04

실전 테스트 결과

테스트방법결과
대화 응답LM Studio 채팅약 11.7 토큰/초 — 무난
인보이스 OCR이미지 드롭 후 금액 추출 (7:01)잔액 1298을 1296으로 오독 — 숫자 정확도 미흡
코딩 + 로컬 API인보이스 파서 웹앱 생성 → LM Studio 서버 연결 (13:41)앱 동작 성공, 단 OCR 오류는 동일

실무 검증 워크플로우 — 병렬 교차 검증

인보이스
Gemma 4 (범용)
OCR 전용 모델
Python 스크립트
결과 교차 검증

범용 모델 하나에 의존하지 말고 여러 경로의 추출 결과를 비교 — 사람 개입 없이 정확도 확보. 영상 9:44

05

활용 시나리오

이메일 자동 분류

스팸 필터링과 중요 메일 표시를 데이터 유출 없는 무료 로컬 AI로 처리. 제작자의 목표: 주당 1시간 절약.

사무 관리 자동화

수신 인보이스에서 금액·항목 추출 후 DB 기록. 단 전용 OCR 모델과 교차 검증 필수.

로컬 AI 앱 개발

LM Studio 서버 URL 하나로 자작 앱에 AI 연결. 구독료 0원, 프라이버시 보장.

06

평가 — 잘하는 것 vs 한계

강점

  • 16GB 보급형 장비에서 "대화 이상의 일"이 가능한 첫 사례
  • 텍스트·이미지·오디오 멀티모달을 단일 모델로 처리
  • MTP로 응답 생성 최대 1.8배 가속
  • 로컬 서버로 자작 앱 연동 가능

한계

  • OCR 숫자 정확도 미흡 — 전용 모델 교차 검증 필요
  • 31K 토큰 한계로 대형 에이전트 하네스(Claude Code 등) 연결 불가
  • 풀 컨텍스트(131K)는 26GB+ RAM 필요