Gemma 4 12B 완전분석 1편 — 16GB 노트북에서 돌아가는 멀티모달 오픈소스 AI의 새 기준

Gemini

Gemma 4 12B 완전분석 1편 — 16GB 노트북에서 돌아가는 멀티모달 오픈소스 AI의 새 기준

cell-devlog 2026. 6. 5. 09:22

2026년 6월 3일, Google DeepMind가 조용히 올린 릴리스 하나가 오픈소스 AI 판도를 다시 흔들었습니다.

✅ 핵심 요약

→ Gemma 4 12B는 2026년 6월 3일 Google DeepMind가 공개한 오픈소스 멀티모달 모델입니다 → 텍스트, 이미지, 영상, 오디오를 별도 인코더 없이 단일 아키텍처로 처리합니다 → 16GB VRAM 또는 통합 메모리 노트북에서 실행 가능합니다 (RTX 4060 기준 21 tokens/sec) → Apache 2.0 라이선스 — 상업적 배포, 수정, 재배포 모두 자유롭습니다 → GPQA Diamond 78.8%, DocVQA에서 26B MoE를 앞서는 벤치마크를 기록했습니다 → Gemma 4 가족의 5번째 모델 — E4B와 26B 사이를 채우는 미드레인지 포지션입니다 → HuggingFace, Kaggle, Ollama, LM Studio에서 오늘 바로 다운로드 가능합니다

Gemma 4 패밀리 전체 지도부터

12B를 이해하려면 먼저 Gemma 4 패밀리 전체를 봐야 합니다. Google DeepMind는 2026년 4월 2일에 Gemma 4를 처음 공개하면서 E2B, E4B, 26B A4B(MoE), 31B Dense 네 가지를 내놨습니다. 그리고 두 달 뒤인 6월 3일, 그 사이를 채우는 12B Unified가 추가됐습니다.

지금 Gemma 4 패밀리는 총 5종입니다.

모델 실제 활성 파라미터 메모리 요구 포지션

E2B	~2.3B	~1.5GB	스마트폰 / Raspberry Pi
E4B	~4.5B	~5GB	엣지 / 고성능 노트북
12B	12B (Dense)	16GB	미드레인지 워크스테이션
26B A4B	3.8B active	~14-18GB (Q4)	단일 GPU 서버
31B Dense	31B	~20GB (Q4)	최고 품질

💡 E4B의 "E"는 뭔가요? "Effective parameter"의 약자입니다. E4B는 Per-Layer Embeddings(PLE) 구조를 사용해 추론 시 실제로 활성화되는 파라미터가 ~4.5B입니다. 모델 파일 크기는 더 크지만 실제 연산은 가볍습니다. 26B의 "A4B"와 비슷한 개념으로, 3.8B만 forward pass에서 활성화됩니다.

E4B vs 12B — 무엇이 다른가

두 모델 모두 "노트북에서 돌아가는 Gemma 4"이지만, 설계 목적이 다릅니다.

항목 E4B 12B

출시일	2026년 4월 2일	2026년 6월 3일
파라미터	~4.5B (effective)	12B (Dense)
메모리	~5GB	16GB
컨텍스트 윈도우	128K tokens	256K tokens
오디오 입력	✅ 네이티브 지원	✅ 네이티브 지원
영상 입력	✅	✅
아키텍처	MoE 계열 (PLE)	Dense (encoder-free)
AIME 2026	42.5%	~60%대 (추정)
GPQA Diamond	~40%대	78.8%
추론 속도	빠름	중간
주요 용도	엣지, 저지연 추론	고품질 로컬 멀티모달

E4B는 속도와 메모리 효율 쪽으로 최적화됐고, 12B는 성능과 접근성의 균형을 노렸습니다. 5GB와 16GB의 차이는 크지 않아 보이지만, GPQA Diamond 기준으로 40%대 → 78.8%는 완전히 다른 레이어의 추론 능력입니다.

💡 Gemma 3 27B와 비교하면? Gemma 3 27B의 GPQA Diamond 점수는 42.4%였습니다. 12B보다 2배 이상 큰 모델이었는데도, 12B에게 36.4%p 차이로 뒤집혔습니다. 세대 차이가 얼마나 큰지 보여주는 수치입니다.

12B의 핵심 — Encoder-Free 멀티모달 아키텍처

기존 멀티모달 모델들은 구조가 복잡했습니다. 텍스트를 처리하는 LLM 백본 위에 이미지 인코더(CLIP 계열), 오디오 인코더(Whisper 계열)를 따로 붙이는 방식이었습니다. 각 인코더가 별도 학습되고, 연결 레이어가 또 필요하고, 그 과정에서 정보가 손실되는 구조입니다.

Gemma 4 12B는 이 구조를 버렸습니다.

[기존 방식]
이미지 → [CLIP 인코더] → 임베딩 → LLM
오디오 → [Whisper 인코더] → 임베딩 → LLM
텍스트 ─────────────────────────────→ LLM

[Gemma 4 12B]
이미지 ┐
오디오 ├──→ [단일 Decoder-Only Transformer] → 출력
영상  │
텍스트 ┘

하나의 트랜스포머가 모든 모달리티를 직접 처리합니다. 중간 변환 단계가 없으니 정보 손실도 없고, 각 모달리티 간 상호작용도 더 자연스럽습니다.

추가 아키텍처 특징:

기술 설명

Multi-Token Prediction	전용 draft 모델 내장 — speculative decoding으로 품질 손실 없이 추론 속도 향상
Alternating Attention	레이어마다 full attention과 local attention을 교차 — 긴 컨텍스트에서 메모리 효율 유지
2D RoPE + 가변 화면비	이미지 토큰 예산 70/140/280/560/1120 중 선택 — 속도-품질 트레이드오프 조절 가능
262K 어휘 크기	140개 이상 언어 지원, 한국어 포함
함수 호출 / JSON 출력	네이티브 지원 — 별도 프롬프트 없이 바로 에이전트 워크플로우 구성 가능

벤치마크 — 숫자로 보는 위치

Google DeepMind 공식 발표 기준입니다. 독립 3자 검증은 6월 4일 시점에서 진행 중입니다.

벤치마크 Gemma 3 27B Gemma 4 E4B Gemma 4 12B Gemma 4 26B MoE

GPQA Diamond	42.4%	~40%대	78.8%	82.3%
AIME 2026	20.8%	42.5%	—	88.3%
LiveCodeBench v6	29.1%	—	—	77.1%
τ2-bench (에이전트)	6.6%	—	—	—
DocVQA	—	—	26B MoE 초과	기준

GPQA Diamond 78.8%는 대학원 수준 과학 문제 풀이 기준입니다. 12B가 26B MoE(82.3%)의 95% 수준에 도달하면서, 메모리 절반으로 거의 동등한 추론 능력을 보여줬습니다.

DocVQA(문서 시각 질의응답)에서는 12B가 26B MoE를 앞섰습니다. 문서 이해처럼 멀티모달 + 언어 이해가 함께 필요한 태스크에서 dense 아키텍처의 강점이 나온 것으로 보입니다.

Apache 2.0이 왜 중요한가

Gemma 1, 2, 3는 Google 자체 "Gemma Terms of Use" 라이선스를 사용했습니다. 오픈소스처럼 보이지만 엔터프라이즈 법무팀이 상업 배포에 제동을 걸 수 있는 조건들이 있었습니다.

Gemma 4부터 Apache 2.0으로 전환됐습니다.

Apache 2.0 허용 범위:
✅ 상업적 사용
✅ 수정 및 재배포
✅ 사적 사용
✅ 특허 사용
❌ 상표권 사용 (Google 브랜드 무단 사용 불가)

Llama 4는 MAU 7억 명 초과 시 별도 라이선스가 필요합니다. Gemma 4는 그런 제약이 없습니다. 스타트업, 엔터프라이즈 모두 법무 검토 없이 바로 제품에 올릴 수 있습니다.

어디서 받고, 어떻게 실행하나

다운로드 경로

# Ollama (가장 빠른 시작)
ollama run gemma4:12b

# CPU 전용 환경 (Q4 양자화)
ollama run gemma4:12b-it-q4_K_M

# HuggingFace
# https://huggingface.co/google/gemma-4-12b-it

지원 인퍼런스 엔진 (day-1 지원)

엔진 용도

Ollama	로컬 원커맨드 실행
llama.cpp	GGUF 양자화, CPU/GPU 혼합
MLX	Apple Silicon 최적화
vLLM	고성능 서버 배포
SGLang	PD 분리 배포, 프로덕션
Unsloth	파인튜닝
LM Studio	GUI 기반 로컬 실행

실측 추론 속도

하드웨어 속도

RTX 4060 (llama.cpp)	~21 tokens/sec
MacBook Pro (MLX)	안정적 실행 확인
CPU only	가능하나 느림 (Q4 권장)

어떤 상황에 쓰면 좋은가

상황 추천 모델

스마트폰 / IoT 엣지 배포	E2B
8GB 이하 로컬, 저지연 우선	E4B
16GB 노트북, 고품질 멀티모달	12B ← 지금 이 글
단일 GPU 서버, 비용 효율	26B A4B
최고 품질, 하드웨어 여유 있음	31B Dense

12B는 "좋은 GPU 하나 있는 개발자"의 기본 선택지가 될 가능성이 높습니다. E4B는 여전히 빠르고 가볍지만, 78.8%의 GPQA Diamond가 필요한 순간부터는 12B로 가야 합니다.

✅ / ❌ 정리

✅ 이럴 때 ❌ 이럴 때

로컬 멀티모달 추론이 필요할 때	8GB 이하 환경 (→ E4B)
상업적 제품에 무제한 올리고 싶을 때	최고 수준 GPQA 필요 (→ 26B/31B)
이미지+오디오+텍스트 동시 처리	클라우드 API만 필요 (→ Gemini 3.5 Flash)
파인튜닝까지 고려할 때 (Unsloth)	GPU 없는 CPU 전용 환경

Gemma 4 가족은 4월에 엣지와 서버 양쪽을 먼저 공략했고, 6월에 그 사이를 12B로 채웠습니다. 라인업 완성입니다. 16GB 노트북 한 대로 멀티모달 프론티어 모델을 완전 소유할 수 있는 시대가 왔습니다.

'Gemini' 카테고리의 다른 글

Gemma 4 12B 완전분석 3편 : Unsloth로 내 데이터에 파인튜닝하기 (0)	2026.06.05
Gemma 4 12B 완전분석 2편: vLLM / SGLang / Ollama 서빙 실전 세팅 (0)	2026.06.05
AI가 내 구글 검색을 대신한다? Gemini AI Mode 사용법 3단계 (0)	2026.06.05
Gemini 3.5 Flash Thought Preservation 완전분석 — 멀티턴 추론이 자동으로 이어지는 것, 비용은 어떻게 올라가나 (0)	2026.05.29
Gemini Omni vs Veo 3.1 — Google이 비디오 모델을 두 개 운영하는 이유 (0)	2026.05.28

현재글Gemma 4 12B 완전분석 1편 — 16GB 노트북에서 돌아가는 멀티모달 오픈소스 AI의 새 기준

CELL AI DEVLOG

AI 에이전트 만듭니다

AI 에이전트, AWS Kiro, github copilot, 클로드코드, LLM as a judge, LLM, SGLANG, MCP, Gemini, claude code, AI agent, 멀티에이전트, Claude Opus 4.8, Claude, LLM서빙, 오픈소스llm, Gemini 3.5 Flash, openai codex, 바이브코딩, Rag,

Today :
Yesterday :

CELL AI DEVLOG