YouTube 리뷰 정리 · Bart Slodyczka · 2026-06-05

Gemma 4 12B, 16GB 맥미니에서 의외로 쓸 만하다

구글의 신규 오픈소스 모델을 보급형 M4 Mac Mini(16GB)에서 실전 테스트 — 성능·메모리·OCR·코딩 검증

12B

파라미터 (120억)

7.56GB

모델 다운로드 용량

31K

16GB 장비 컨텍스트 한계

1.8x

MTP 응답 가속 (최대)

Gemma 4 제품군 — 12B의 위치

E2B

스마트폰용

E4B

스마트폰용

12B

이번 출시 · 16GB 장비 타깃

26B

로드에만 18GB 필요

31B

고성능 워크스테이션용

구글 주장: 12B는 코딩·에이전트 툴 호출·추론 벤치마크에서 26B 대비 대부분 10% 이내 격차 — 크기는 절반 이하. 영상 1:04

핵심 제약 — 컨텍스트 길이와 RAM

4K 토큰 (기본)

약 8GB

31K 토큰 (한계)

약 12GB — 스위트 스폿

131K 토큰 (최대)

26GB+ — 16GB 장비 불가

OS가 2~3GB를 상시 점유. 실측: 모델 로드만으로 메모리 6GB → 14.9GB. Claude Code 등 에이전트 도구는 기본 프롬프트만 약 3만 토큰이라 31K 설정으로는 연결 즉시 에러. 영상 4:49

두 가지 구조적 변화

멀티모달 인코더 제거

이미지·음성

→

별도 인코더

→

LLM

이미지·음성

→

LLM (인코더 내장)

중간 변환 단계 제거 → 지연 감소, 정보 손실 감소. 텍스트·이미지·오디오 직접 처리. 영상 8:01

멀티 토큰 예측 (MTP)

프리필
입력 소화

→

디코딩
MTP가 가속

초소형 보조 모델이 다음 단어를 미리 추측(적중률 60~70%), 본 모델은 검증만 → 응답 생성 최대 1.5~1.8배 가속. 영상 10:49

실전 테스트 결과

테스트	방법	결과
대화 응답	LM Studio 채팅	약 11.7 토큰/초 — 무난
인보이스 OCR	이미지 드롭 후 금액 추출 (7:01)	잔액 1298을 1296으로 오독 — 숫자 정확도 미흡
코딩 + 로컬 API	인보이스 파서 웹앱 생성 → LM Studio 서버 연결 (13:41)	앱 동작 성공, 단 OCR 오류는 동일

실무 검증 워크플로우 — 병렬 교차 검증

인보이스

→

Gemma 4 (범용)

OCR 전용 모델

Python 스크립트

→

결과 교차 검증

범용 모델 하나에 의존하지 말고 여러 경로의 추출 결과를 비교 — 사람 개입 없이 정확도 확보. 영상 9:44

활용 시나리오

이메일 자동 분류

스팸 필터링과 중요 메일 표시를 데이터 유출 없는 무료 로컬 AI로 처리. 제작자의 목표: 주당 1시간 절약.

사무 관리 자동화

수신 인보이스에서 금액·항목 추출 후 DB 기록. 단 전용 OCR 모델과 교차 검증 필수.

로컬 AI 앱 개발

LM Studio 서버 URL 하나로 자작 앱에 AI 연결. 구독료 0원, 프라이버시 보장.

평가 — 잘하는 것 vs 한계

강점

16GB 보급형 장비에서 "대화 이상의 일"이 가능한 첫 사례
텍스트·이미지·오디오 멀티모달을 단일 모델로 처리
MTP로 응답 생성 최대 1.8배 가속
로컬 서버로 자작 앱 연동 가능

한계

OCR 숫자 정확도 미흡 — 전용 모델 교차 검증 필요
31K 토큰 한계로 대형 에이전트 하네스(Claude Code 등) 연결 불가
풀 컨텍스트(131K)는 26GB+ RAM 필요