반응형
같은 Qwen3.6 패밀리인데 아키텍처가 완전히 다릅니다. 뭘 골라야 할지 헷갈리는 분들을 위해 정리했습니다.
[핵심 요약]
→ 27B: Dense 모델 — 모든 파라미터 항상 활성, 성능 우선
→ 35B-A3B: MoE 모델 — 3B만 활성, 속도 우선
→ 벤치마크: 27B가 전 항목에서 앞섬
→ 속도: 35B-A3B가 3~5배 빠름 (같은 하드웨어 기준)
→ VRAM: 27B ~16.8GB vs 35B-A3B ~21GB (Q4 기준)
→ 결론: 코딩 에이전트 → 27B / 빠른 인터랙티브 → 35B-A3B
Dense vs MoE — 뭐가 다른가
같은 Qwen3.6 패밀리지만 내부 구조가 근본적으로 다릅니다.
Dense (27B):
→ 27B 파라미터 전부 항상 활성
→ 모든 토큰에 27B 파라미터가 계산에 참여
→ 토큰당 연산량: 많음
→ 결과: 품질 높음, 속도 느림
MoE (35B-A3B):
→ 총 파라미터 35B, 활성 파라미터 3B
→ 라우터가 토큰마다 쓸 전문가(expert) 선택
→ 토큰당 연산량: 적음 (3B만 계산)
→ 결과: 품질 낮음, 속도 빠름
[직관적 비유]
→ Dense 27B: 27명 전문가가 매 질문마다 전부 회의
→ MoE 35B-A3B: 35명 중 3명만 그때그때 골라서 답변
→ 회의체가 더 좋은 답 내지만 느림
→ 선발대가 빠르지만 가끔 틀림
실전 1 — 벤치마크 비교
# Qwen3.6 패밀리 벤치마크 비교
benchmarks = {
"SWE-bench Verified": {
"27B (Dense)": 77.2,
"35B-A3B (MoE)": 72.0,
"차이": "+5.2%p → 27B 우세"
},
"Terminal-Bench 2.0": {
"27B (Dense)": 59.3,
"35B-A3B (MoE)": 51.5,
"차이": "+7.8%p → 27B 우세 (가장 큰 격차)"
},
"SkillsBench": {
"27B (Dense)": 48.2,
"35B-A3B (MoE)": "~40",
"차이": "27B 우세"
},
"AIME 2026": {
"27B (Dense)": 94.1,
"35B-A3B (MoE)": "유사",
"차이": "큰 차이 없음"
}
}
[벤치마크 해석]
→ 코딩 관련 태스크: 27B가 전 항목에서 앞섬
→ Terminal-Bench 격차 7.8%p: 복잡한 멀티스텝 터미널 작업에서 차이 뚜렷
→ 수학/추론: 두 모델 격차 적음
→ 단순 코드 생성(자동완성): 격차 거의 없음
실전 2 — VRAM 및 속도 비교
하드웨어 선택의 핵심입니다.
# VRAM 요구량 비교 (Q4 양자화 기준)
vram_requirements = {
"Qwen3.6-27B (Dense)": {
"Q4_K_M": "~16.8GB",
"Q5_K_M": "~19.5GB",
"Q6_K": "~22.5GB",
"Q8_0": "~28.6GB",
"BF16": "~55.6GB",
"권장 GPU": "RTX 4090 (24GB)"
},
"Qwen3.6-35B-A3B (MoE)": {
"Q4_K_M": "~21GB", # 총 파라미터 35B라 더 큼
"권장 GPU": "RTX 4090 (24GB) 또는 A6000 (48GB)"
}
}
# 추론 속도 비교 (RTX 4090 기준)
inference_speed = {
"27B (Dense)": "15~25 t/s", # 느리지만 정확
"35B-A3B (MoE)": "60~100 t/s", # 3~5배 빠름
}
[속도 체감 비교]
→ 35B-A3B: 짧은 응답 2~3초
→ 27B: 같은 응답 10~20초
→ 긴 코딩 응답(Thinking 모드): 27B는 수분 소요 가능
→ 인터랙티브 사용: 35B-A3B가 체감상 훨씬 쾌적
실전 3 — 각 모델 서빙 커맨드
두 모델 모두 같은 프레임워크로 서빙 가능합니다.
# ===== Qwen3.6-27B (Dense) =====
# vLLM
vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 2 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder
# SGLang (MTP 옵션으로 속도 보완 가능)
python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-27B \
--port 8000 --tp-size 2 \
--reasoning-parser qwen3 \
--speculative-algo NEXTN \
--speculative-num-steps 3 \
--speculative-num-draft-tokens 4
# ===== Qwen3.6-35B-A3B (MoE) =====
# vLLM
vllm serve Qwen/Qwen3.6-35B-A3B \
--port 8000 \
--tensor-parallel-size 2 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder
# SGLang
python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-35B-A3B \
--port 8000 --tp-size 2 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3
[서빙 선택 포인트]
→ 두 모델 모두 동일한 커맨드 구조
→ MoE(35B-A3B)는 --language-model-only 옵션 없음 (비전 인코더 구조 다름)
→ SGLang MTP: 27B Dense에서 속도 보완 효과 있음
→ CUDA 13.2 버그 주의 → 두 모델 모두 13.1 또는 12.x 사용
실전 4 — 두 모델 동시 운용 전략
RTX 4090 한 장에서 두 모델을 상황에 따라 교체하는 패턴입니다.
# 워크로드별 모델 선택 로직
def select_qwen_model(task_type, need_speed):
if task_type == "agentic_coding":
# 복잡한 멀티스텝 코딩 에이전트
return "Qwen3.6-27B" # Terminal-Bench 59.3%
if task_type == "interactive_chat":
# 빠른 응답이 필요한 인터랙티브
return "Qwen3.6-35B-A3B" # 60~100 t/s
if task_type == "simple_autocomplete":
# 단순 코드 자동완성
return "Qwen3.6-35B-A3B" # 성능 차이 적고 빠름
if task_type == "batch_processing":
# 대량 프롬프트 처리
return "Qwen3.6-35B-A3B" # 처리량 3~5배
if task_type == "code_review":
# 정확한 리뷰가 중요
return "Qwen3.6-27B" # SWE-bench 77.2%
# 기본값: 정확도 우선
return "Qwen3.6-27B"
[실무 운용 패턴]
→ 낮: 35B-A3B로 빠른 피드백 받으며 개발
→ 복잡한 문제 막힐 때: 27B로 전환해서 깊이 있는 답 받기
→ 야간 배치: 35B-A3B로 대량 처리
→ LM Studio에서 모델 전환 1~2분이면 가능
한 줄 결론
코딩 에이전트, 최고 품질 필요 → Qwen3.6-27B (Dense)
빠른 응답, 인터랙티브 코딩 → Qwen3.6-35B-A3B (MoE)
둘 다 Apache 2.0, 상업 이용 무료
마무리
✅ 27B (Dense) 선택해야 할 때
→ SWE-bench, Terminal-Bench 등 코딩 에이전트 최고 품질
→ 복잡한 멀티파일 리팩토링, 저장소 단위 작업
→ 속도보다 정확도가 중요한 배치 파이프라인
→ RTX 4090 한 장 있고 응답 대기 OK
✅ 35B-A3B (MoE) 선택해야 할 때
→ 인터랙티브 코딩 어시스턴트 (Cursor, Continue.dev 연동)
→ 빠른 응답 필요한 챗봇, API 서비스
→ 여러 앱 동시에 띄워놓고 GPU 공유
→ 단순 자동완성, 간단한 코드 생성
Qwen3.6-27B 완전 분석 — 27B 모델이 397B MoE 능가
RTX 4090 하나로 프론티어급 코딩 에이전트를 돌릴 수 있는 시대가 왔습니다.[핵심 요약]→ 출시: 2026년 4월 22일, Alibaba Qwen Team→ 라이센스: Apache 2.0 (상업 사용 가능)→ 파라미터: 27B dense (이전 플래
cell-devlog.tistory.com
SGLang 서빙에 대한 모든 것 — 설치부터 프로덕션까지 완전 가이드
2026년 현재 오픈소스 LLM 추론 엔진 중 실질적인 업계 표준은 SGLang이에요.xAI(Grok), NVIDIA, AMD, LinkedIn, Cursor, Oracle Cloud, Google Cloud, AWS가 프로덕션에 사용 중이고, 전 세계 40만 개 이상의 GPU에서 매일
cell-devlog.tistory.com
반응형
'LLM' 카테고리의 다른 글
| 오픈소스 코딩 모델 3파전 — Qwen3.6-27B vs Gemma 4 31B vs GLM-5.1 (0) | 2026.04.24 |
|---|---|
| Qwen3.6-27B로 로컬 코딩 에이전트 만들기 — Aider, Continue.dev, Cursor, Qwen Code 완전 연동 가이드 (0) | 2026.04.24 |
| Qwen3.6-27B 완전 분석 — 27B 모델이 397B MoE 능가 (0) | 2026.04.24 |
| GPT-5.5 비싸다 — GPT-5.4 대비 2배 (0) | 2026.04.24 |
| GPT-5.5 출시 완전 분석 — Claude Opus 4.7에 일주일 만에 날린 OpenAI의 반격 (0) | 2026.04.24 |