각자 다른 대륙, 다른 철학. 그런데 전부 프론티어급입니다. 뭘 골라야 할지 완전히 정리해드립니다.
[핵심 요약]
→ Qwen3.6-27B: 코딩 에이전트 최강, RTX 4090 한 장, Apache 2.0
→ Gemma 4 31B: 수학/추론 최강, 멀티모달(비전+오디오), Apache 2.0
→ GLM-5.1: SWE-bench Pro 1위, 6000+ 툴 호출 지속, MIT 라이센스
→ 공통점: 전부 Apache 2.0 / MIT, 상업 이용 무료
→ 결론: 용도에 따라 다름 — 이 글이 그 기준을 정리합니다
세 모델이 동시에 나온 이유
2026년 4월은 오픈소스 AI 역사상 가장 경쟁이 치열한 달입니다. Alibaba, Google, Z.AI(Zhipu AI)가 수주 안에 모두 출시했습니다.
출시 타임라인:
→ Gemma 4: 2026년 4월 초 (Google)
→ GLM-5.1: 2026년 4월 중순 (Z.AI / Zhipu AI)
→ Qwen3.6-27B: 2026년 4월 22일 (Alibaba)
공통 방향:
→ 에이전트 코딩 특화
→ 긴 컨텍스트 지원
→ Apache 2.0 / MIT — 상업 이용 제한 없음
→ 클로즈드 모델 수준의 성능 표방
6개월 전만 해도 오픈소스 모델은 GPT/Claude 대비 10~20%p 낮았습니다. 지금은 SWE-bench 기준 3~5%p 차이입니다. 격차가 거의 사라졌습니다.
실전 1 — 스펙 한눈에 비교
models = {
"Qwen3.6-27B": {
"파라미터": "27B (Dense)",
"활성 파라미터": "27B (전부)",
"컨텍스트": "262K (최대 1M)",
"라이센스": "Apache 2.0",
"VRAM_Q4": "~16.8GB",
"멀티모달": "이미지/비디오",
"특기": "에이전트 코딩, Terminal-Bench"
},
"Gemma4_31B": {
"파라미터": "31B (Dense)",
"활성 파라미터": "31B (전부)",
"컨텍스트": "256K",
"라이센스": "Apache 2.0",
"VRAM_Q4": "~18GB",
"멀티모달": "이미지 + 오디오",
"특기": "수학(AIME 89.2%), 추론, 멀티모달"
},
"GLM-5.1": {
"파라미터": "744B (MoE)",
"활성 파라미터": "미공개",
"컨텍스트": "128K",
"라이센스": "MIT",
"VRAM_Q4": "서버급 필요",
"멀티모달": "이미지",
"특기": "SWE-bench Pro 1위, 장시간 에이전트 루프"
}
}
[스펙 핵심 정리]
→ 로컬 서빙 가능: Qwen3.6-27B, Gemma 4 31B (RTX 4090 한 장)
→ 서버급 필요: GLM-5.1 (744B MoE)
→ 컨텍스트 최대: Qwen3.6-27B (1M 확장 가능)
→ 멀티모달 가장 넓음: Gemma 4 (이미지 + 오디오)
→ 라이센스: 셋 다 상업 이용 무료
실전 2 — 코딩 벤치마크 비교
coding_benchmarks = {
"SWE-bench Verified": {
"Qwen3.6-27B": 77.2, # 코드 버그 수정 능력
"Gemma4_31B": "~50대", # 코딩보다 수학/추론 특화
"GLM-5.1": 77.8, # SWE-bench Verified 기준
},
"SWE-bench Pro": {
"Qwen3.6-27B": 53.5,
"Gemma4_31B": "낮음",
"GLM-5.1": 58.4, # ← 오픈소스 1위
},
"Terminal-Bench 2.0": {
"Qwen3.6-27B": 59.3, # ← 오픈소스 최강
"Gemma4_31B": "미측정",
"GLM-5.1": "미측정",
},
"LiveCodeBench v6": {
"Qwen3.6-27B": "유사",
"Gemma4_31B": 80.0, # ← 높음
"GLM-5.1": "미측정",
},
"AIME 2026 (수학)": {
"Qwen3.6-27B": 94.1,
"Gemma4_31B": 89.2,
"GLM-5.1": 95.3, # ← 수학 최강
}
}
[코딩 벤치마크 해석]
→ 실제 GitHub 버그 수정 (SWE-bench Verified): Qwen3.6 ≈ GLM-5.1 > Gemma 4
→ 프로덕션 수준 코딩 (SWE-bench Pro): GLM-5.1 > Qwen3.6 > Gemma 4
→ 터미널 에이전트: Qwen3.6 압도적 우세
→ 수학/알고리즘 코딩: GLM-5.1 > Qwen3.6 > Gemma 4
→ 멀티모달 코딩 (UI 생성 등): Gemma 4 우세
실전 3 — 에이전트 능력 비교
코딩 에이전트로 쓸 때 실질적으로 중요한 지표들입니다.
agent_capabilities = {
"Qwen3.6-27B": {
"툴 호출": "안정적",
"멀티스텝 루프": "강함",
"컨텍스트 유지": "262K 네이티브 / 1M 확장",
"Thinking 보존": "O (신기능, 이전 추론 맥락 유지)",
"MCP 지원": "O",
"장시간 루프": "안정적"
},
"Gemma4_31B": {
"툴 호출": "Function Calling 지원",
"멀티스텝 루프": "보통",
"컨텍스트 유지": "256K",
"Thinking 보존": "X",
"MCP 지원": "제한적",
"장시간 루프": "검증 부족"
},
"GLM-5.1": {
"툴 호출": "6,000+ 연속 호출 검증됨",
"멀티스텝 루프": "600+ 이터레이션 지속", # ← 압도적
"컨텍스트 유지": "128K",
"Thinking 보존": "X",
"MCP 지원": "O",
"장시간 루프": "오픈소스 최강"
}
}
[에이전트 포인트]
→ 단기 코딩 태스크: Qwen3.6-27B (Terminal-Bench 59.3%)
→ 장시간 자율 에이전트: GLM-5.1 (600+ 루프, 6000+ 툴 호출)
→ 멀티모달 에이전트 (UI 분석 포함): Gemma 4 31B
→ Thinking 보존 (반복 개발 맥락 유지): Qwen3.6-27B만 지원
실전 4 — 로컬 서빙 비교
# ===== Qwen3.6-27B =====
vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 1 \
--max-model-len 32768 \
--reasoning-parser qwen3 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder
# VRAM: ~16.8GB (Q4), RTX 4090 가능
# ===== Gemma 4 31B =====
vllm serve google/gemma-4-31b-it \
--port 8000 \
--tensor-parallel-size 1 \
--max-model-len 32768
# VRAM: ~18GB (Q4), RTX 4090 빠듯
# ===== GLM-5.1 =====
# 744B MoE — 단일 RTX 4090으로 불가
# API로만 실용적 사용 가능
# https://open.bigmodel.cn
[로컬 서빙 현실]
→ RTX 4090 한 장: Qwen3.6-27B (여유), Gemma 4 31B (빠듯)
→ GLM-5.1: 744B라 서버급 인프라 필요 → API 사용 권장
→ Ollama: Qwen3.6-27B 미지원, Gemma 4는 지원
→ 결국 로컬 가능 모델: Qwen3.6-27B > Gemma 4 31B
실전 5 — 용도별 선택 가이드
def select_model(use_case):
if use_case == "터미널_에이전트":
# Terminal-Bench 59.3%
return "Qwen3.6-27B"
if use_case == "장시간_자율_에이전트":
# 600+ 이터레이션, 6000+ 툴 호출
return "GLM-5.1 (API)"
if use_case == "수학_알고리즘_코딩":
# AIME 95.3%
return "GLM-5.1"
if use_case == "멀티모달_코딩":
# 이미지 + 오디오 네이티브
return "Gemma 4 31B"
if use_case == "로컬_서빙":
# RTX 4090 한 장
return "Qwen3.6-27B"
if use_case == "파인튜닝":
# 베이스 모델 공개, 파인튜닝 생태계 성숙
return "Gemma 4 31B"
if use_case == "장문_컨텍스트":
# 1M 확장 가능
return "Qwen3.6-27B"
if use_case == "보안_환경_로컬":
# 외부 전송 없음, RTX 4090 가능
return "Qwen3.6-27B"
# 기본값
return "Qwen3.6-27B" # 가장 균형 잡힌 선택
[한 줄 선택 기준]
→ 코딩 에이전트 로컬 → Qwen3.6-27B
→ 밤새 돌아가는 자율 에이전트 → GLM-5.1 (API)
→ 수학 코딩, 알고리즘 → GLM-5.1
→ UI 스크린샷 분석, 멀티모달 → Gemma 4 31B
→ 파인튜닝 계획 있음 → Gemma 4 31B
클로즈드 모델 대비 포지션
Qwen3.6-27B Gemma4-31B GLM-5.1 Claude Opus 4.7
SWE-Verified: 77.2% ~50% 77.8% 84.3%
SWE-Pro: 53.5% 낮음 58.4% 64.3%
AIME 2026: 94.1% 89.2% 95.3% 미공개
API 비용: $0(로컬) $0(로컬) 무료API $5/$25 1M
라이센스: Apache 2.0 Apache 2.0 MIT 상업API 전용
[클로즈드 대비 격차 요약]
→ SWE-bench Verified: Claude Opus 4.7과 7%p 차 (Qwen/GLM 기준)
→ SWE-bench Pro: Claude Opus 4.7과 6~11%p 차
→ 비용: 로컬 기준 완전 0원 vs $5+/1M tokens
→ 2025년 10월 기준 격차가 20%p였음 → 지금 7%p → 계속 좁혀지는 중
마무리
✅ Qwen3.6-27B 써야 할 때
→ RTX 4090으로 로컬 코딩 에이전트
→ 터미널 자동화, 멀티스텝 코딩 태스크
→ 긴 컨텍스트(코드베이스 전체) 분석
→ 보안 환경에서 코드 외부 전송 불가
✅ Gemma 4 31B 써야 할 때
→ 수학/알고리즘 집약적 코딩
→ UI 스크린샷, 음성 포함 멀티모달 파이프라인
→ 파인튜닝 계획 있을 때 (Google 생태계 성숙)
→ Ollama로 빠르게 테스트하고 싶을 때
✅ GLM-5.1 써야 할 때
→ 밤새 돌아가는 자율 에이전트 (600+ 루프 검증)
→ SWE-bench Pro 최고 성능 필요
→ 6000+ 툴 호출이 필요한 복잡한 파이프라인
→ MIT 라이센스 (가장 제약 없음)
→ 단, 로컬 서빙 불가 → API 필수
관련 글:
Qwen3.6-27B 완전 분석 — 27B 모델이 397B MoE 능가
RTX 4090 하나로 프론티어급 코딩 에이전트를 돌릴 수 있는 시대가 왔습니다.[핵심 요약]→ 출시: 2026년 4월 22일, Alibaba Qwen Team→ 라이센스: Apache 2.0 (상업 사용 가능)→ 파라미터: 27B dense (이전 플래
cell-devlog.tistory.com
Qwen3.6-27B vs 35B-A3B — Dense vs MoE
같은 Qwen3.6 패밀리인데 아키텍처가 완전히 다릅니다. 뭘 골라야 할지 헷갈리는 분들을 위해 정리했습니다.[핵심 요약]→ 27B: Dense 모델 — 모든 파라미터 항상 활성, 성능 우선→ 35B-A3B: MoE 모델
cell-devlog.tistory.com
Qwen3.6-27B로 로컬 코딩 에이전트 만들기 — Aider, Continue.dev, Cursor, Qwen Code 완전 연동 가이드
API 비용 0원, 코드 외부 전송 없음. RTX 4090 한 장으로 프론티어급 코딩 에이전트를 로컬에서 돌립니다.[핵심 요약]→ 이번 글에서 다루는 것:→ 1단계: vLLM로 로컬 서버 띄우기→ 2단계: Aider 연동
cell-devlog.tistory.com
'LLM' 카테고리의 다른 글
| Microsoft MAI 모델 3종 완전 분석 — OpenAI 없이 만든 음성·이미지 API 실전 가이드 (0) | 2026.04.27 |
|---|---|
| OpenAI Privacy Filter 완전 가이드 — LLM에 개인정보 넣기 전에 로컬에서 자동 마스킹하는 법 (0) | 2026.04.24 |
| Qwen3.6-27B로 로컬 코딩 에이전트 만들기 — Aider, Continue.dev, Cursor, Qwen Code 완전 연동 가이드 (0) | 2026.04.24 |
| Qwen3.6-27B vs 35B-A3B — Dense vs MoE (0) | 2026.04.24 |
| Qwen3.6-27B 완전 분석 — 27B 모델이 397B MoE 능가 (0) | 2026.04.24 |