2026년 6월 3일, Google DeepMind가 조용히 올린 릴리스 하나가 오픈소스 AI 판도를 다시 흔들었습니다.
✅ 핵심 요약
→ Gemma 4 12B는 2026년 6월 3일 Google DeepMind가 공개한 오픈소스 멀티모달 모델입니다 → 텍스트, 이미지, 영상, 오디오를 별도 인코더 없이 단일 아키텍처로 처리합니다 → 16GB VRAM 또는 통합 메모리 노트북에서 실행 가능합니다 (RTX 4060 기준 21 tokens/sec) → Apache 2.0 라이선스 — 상업적 배포, 수정, 재배포 모두 자유롭습니다 → GPQA Diamond 78.8%, DocVQA에서 26B MoE를 앞서는 벤치마크를 기록했습니다 → Gemma 4 가족의 5번째 모델 — E4B와 26B 사이를 채우는 미드레인지 포지션입니다 → HuggingFace, Kaggle, Ollama, LM Studio에서 오늘 바로 다운로드 가능합니다
Gemma 4 패밀리 전체 지도부터
12B를 이해하려면 먼저 Gemma 4 패밀리 전체를 봐야 합니다. Google DeepMind는 2026년 4월 2일에 Gemma 4를 처음 공개하면서 E2B, E4B, 26B A4B(MoE), 31B Dense 네 가지를 내놨습니다. 그리고 두 달 뒤인 6월 3일, 그 사이를 채우는 12B Unified가 추가됐습니다.
지금 Gemma 4 패밀리는 총 5종입니다.
모델 실제 활성 파라미터 메모리 요구 포지션
| E2B | ~2.3B | ~1.5GB | 스마트폰 / Raspberry Pi |
| E4B | ~4.5B | ~5GB | 엣지 / 고성능 노트북 |
| 12B | 12B (Dense) | 16GB | 미드레인지 워크스테이션 |
| 26B A4B | 3.8B active | ~14-18GB (Q4) | 단일 GPU 서버 |
| 31B Dense | 31B | ~20GB (Q4) | 최고 품질 |
💡 E4B의 "E"는 뭔가요? "Effective parameter"의 약자입니다. E4B는 Per-Layer Embeddings(PLE) 구조를 사용해 추론 시 실제로 활성화되는 파라미터가 ~4.5B입니다. 모델 파일 크기는 더 크지만 실제 연산은 가볍습니다. 26B의 "A4B"와 비슷한 개념으로, 3.8B만 forward pass에서 활성화됩니다.
E4B vs 12B — 무엇이 다른가
두 모델 모두 "노트북에서 돌아가는 Gemma 4"이지만, 설계 목적이 다릅니다.
항목 E4B 12B
| 출시일 | 2026년 4월 2일 | 2026년 6월 3일 |
| 파라미터 | ~4.5B (effective) | 12B (Dense) |
| 메모리 | ~5GB | 16GB |
| 컨텍스트 윈도우 | 128K tokens | 256K tokens |
| 오디오 입력 | ✅ 네이티브 지원 | ✅ 네이티브 지원 |
| 영상 입력 | ✅ | ✅ |
| 아키텍처 | MoE 계열 (PLE) | Dense (encoder-free) |
| AIME 2026 | 42.5% | ~60%대 (추정) |
| GPQA Diamond | ~40%대 | 78.8% |
| 추론 속도 | 빠름 | 중간 |
| 주요 용도 | 엣지, 저지연 추론 | 고품질 로컬 멀티모달 |
E4B는 속도와 메모리 효율 쪽으로 최적화됐고, 12B는 성능과 접근성의 균형을 노렸습니다. 5GB와 16GB의 차이는 크지 않아 보이지만, GPQA Diamond 기준으로 40%대 → 78.8%는 완전히 다른 레이어의 추론 능력입니다.
💡 Gemma 3 27B와 비교하면? Gemma 3 27B의 GPQA Diamond 점수는 42.4%였습니다. 12B보다 2배 이상 큰 모델이었는데도, 12B에게 36.4%p 차이로 뒤집혔습니다. 세대 차이가 얼마나 큰지 보여주는 수치입니다.
12B의 핵심 — Encoder-Free 멀티모달 아키텍처
기존 멀티모달 모델들은 구조가 복잡했습니다. 텍스트를 처리하는 LLM 백본 위에 이미지 인코더(CLIP 계열), 오디오 인코더(Whisper 계열)를 따로 붙이는 방식이었습니다. 각 인코더가 별도 학습되고, 연결 레이어가 또 필요하고, 그 과정에서 정보가 손실되는 구조입니다.
Gemma 4 12B는 이 구조를 버렸습니다.
[기존 방식]
이미지 → [CLIP 인코더] → 임베딩 → LLM
오디오 → [Whisper 인코더] → 임베딩 → LLM
텍스트 ─────────────────────────────→ LLM
[Gemma 4 12B]
이미지 ┐
오디오 ├──→ [단일 Decoder-Only Transformer] → 출력
영상 │
텍스트 ┘
하나의 트랜스포머가 모든 모달리티를 직접 처리합니다. 중간 변환 단계가 없으니 정보 손실도 없고, 각 모달리티 간 상호작용도 더 자연스럽습니다.
추가 아키텍처 특징:
기술 설명
| Multi-Token Prediction | 전용 draft 모델 내장 — speculative decoding으로 품질 손실 없이 추론 속도 향상 |
| Alternating Attention | 레이어마다 full attention과 local attention을 교차 — 긴 컨텍스트에서 메모리 효율 유지 |
| 2D RoPE + 가변 화면비 | 이미지 토큰 예산 70/140/280/560/1120 중 선택 — 속도-품질 트레이드오프 조절 가능 |
| 262K 어휘 크기 | 140개 이상 언어 지원, 한국어 포함 |
| 함수 호출 / JSON 출력 | 네이티브 지원 — 별도 프롬프트 없이 바로 에이전트 워크플로우 구성 가능 |
벤치마크 — 숫자로 보는 위치
Google DeepMind 공식 발표 기준입니다. 독립 3자 검증은 6월 4일 시점에서 진행 중입니다.
벤치마크 Gemma 3 27B Gemma 4 E4B Gemma 4 12B Gemma 4 26B MoE
| GPQA Diamond | 42.4% | ~40%대 | 78.8% | 82.3% |
| AIME 2026 | 20.8% | 42.5% | — | 88.3% |
| LiveCodeBench v6 | 29.1% | — | — | 77.1% |
| τ2-bench (에이전트) | 6.6% | — | — | — |
| DocVQA | — | — | 26B MoE 초과 | 기준 |
GPQA Diamond 78.8%는 대학원 수준 과학 문제 풀이 기준입니다. 12B가 26B MoE(82.3%)의 95% 수준에 도달하면서, 메모리 절반으로 거의 동등한 추론 능력을 보여줬습니다.
DocVQA(문서 시각 질의응답)에서는 12B가 26B MoE를 앞섰습니다. 문서 이해처럼 멀티모달 + 언어 이해가 함께 필요한 태스크에서 dense 아키텍처의 강점이 나온 것으로 보입니다.
Apache 2.0이 왜 중요한가
Gemma 1, 2, 3는 Google 자체 "Gemma Terms of Use" 라이선스를 사용했습니다. 오픈소스처럼 보이지만 엔터프라이즈 법무팀이 상업 배포에 제동을 걸 수 있는 조건들이 있었습니다.
Gemma 4부터 Apache 2.0으로 전환됐습니다.
Apache 2.0 허용 범위:
✅ 상업적 사용
✅ 수정 및 재배포
✅ 사적 사용
✅ 특허 사용
❌ 상표권 사용 (Google 브랜드 무단 사용 불가)
Llama 4는 MAU 7억 명 초과 시 별도 라이선스가 필요합니다. Gemma 4는 그런 제약이 없습니다. 스타트업, 엔터프라이즈 모두 법무 검토 없이 바로 제품에 올릴 수 있습니다.
어디서 받고, 어떻게 실행하나
다운로드 경로
# Ollama (가장 빠른 시작)
ollama run gemma4:12b
# CPU 전용 환경 (Q4 양자화)
ollama run gemma4:12b-it-q4_K_M
# HuggingFace
# https://huggingface.co/google/gemma-4-12b-it
지원 인퍼런스 엔진 (day-1 지원)
엔진 용도
| Ollama | 로컬 원커맨드 실행 |
| llama.cpp | GGUF 양자화, CPU/GPU 혼합 |
| MLX | Apple Silicon 최적화 |
| vLLM | 고성능 서버 배포 |
| SGLang | PD 분리 배포, 프로덕션 |
| Unsloth | 파인튜닝 |
| LM Studio | GUI 기반 로컬 실행 |
실측 추론 속도
하드웨어 속도
| RTX 4060 (llama.cpp) | ~21 tokens/sec |
| MacBook Pro (MLX) | 안정적 실행 확인 |
| CPU only | 가능하나 느림 (Q4 권장) |
어떤 상황에 쓰면 좋은가
상황 추천 모델
| 스마트폰 / IoT 엣지 배포 | E2B |
| 8GB 이하 로컬, 저지연 우선 | E4B |
| 16GB 노트북, 고품질 멀티모달 | 12B ← 지금 이 글 |
| 단일 GPU 서버, 비용 효율 | 26B A4B |
| 최고 품질, 하드웨어 여유 있음 | 31B Dense |
12B는 "좋은 GPU 하나 있는 개발자"의 기본 선택지가 될 가능성이 높습니다. E4B는 여전히 빠르고 가볍지만, 78.8%의 GPQA Diamond가 필요한 순간부터는 12B로 가야 합니다.
✅ / ❌ 정리
✅ 이럴 때 ❌ 이럴 때
| 로컬 멀티모달 추론이 필요할 때 | 8GB 이하 환경 (→ E4B) |
| 상업적 제품에 무제한 올리고 싶을 때 | 최고 수준 GPQA 필요 (→ 26B/31B) |
| 이미지+오디오+텍스트 동시 처리 | 클라우드 API만 필요 (→ Gemini 3.5 Flash) |
| 파인튜닝까지 고려할 때 (Unsloth) | GPU 없는 CPU 전용 환경 |
Gemma 4 가족은 4월에 엣지와 서버 양쪽을 먼저 공략했고, 6월에 그 사이를 12B로 채웠습니다. 라인업 완성입니다. 16GB 노트북 한 대로 멀티모달 프론티어 모델을 완전 소유할 수 있는 시대가 왔습니다.
관련 글
'Gemini' 카테고리의 다른 글
| Gemma 4 12B 완전분석 3편 : Unsloth로 내 데이터에 파인튜닝하기 (0) | 2026.06.05 |
|---|---|
| Gemma 4 12B 완전분석 2편: vLLM / SGLang / Ollama 서빙 실전 세팅 (0) | 2026.06.05 |
| AI가 내 구글 검색을 대신한다? Gemini AI Mode 사용법 3단계 (0) | 2026.06.05 |
| Gemini 3.5 Flash Thought Preservation 완전분석 — 멀티턴 추론이 자동으로 이어지는 것, 비용은 어떻게 올라가나 (0) | 2026.05.29 |
| Gemini Omni vs Veo 3.1 — Google이 비디오 모델을 두 개 운영하는 이유 (0) | 2026.05.28 |