본문 바로가기

LLM

Qwen3.6-27B vs 35B-A3B — Dense vs MoE

반응형

같은 Qwen3.6 패밀리인데 아키텍처가 완전히 다릅니다. 뭘 골라야 할지 헷갈리는 분들을 위해 정리했습니다.

[핵심 요약]
→ 27B: Dense 모델 — 모든 파라미터 항상 활성, 성능 우선
→ 35B-A3B: MoE 모델 — 3B만 활성, 속도 우선
→ 벤치마크: 27B가 전 항목에서 앞섬
→ 속도: 35B-A3B가 3~5배 빠름 (같은 하드웨어 기준)
→ VRAM: 27B ~16.8GB vs 35B-A3B ~21GB (Q4 기준)
→ 결론: 코딩 에이전트 → 27B / 빠른 인터랙티브 → 35B-A3B

Dense vs MoE — 뭐가 다른가

같은 Qwen3.6 패밀리지만 내부 구조가 근본적으로 다릅니다.

Dense (27B):
→ 27B 파라미터 전부 항상 활성
→ 모든 토큰에 27B 파라미터가 계산에 참여
→ 토큰당 연산량: 많음
→ 결과: 품질 높음, 속도 느림

MoE (35B-A3B):
→ 총 파라미터 35B, 활성 파라미터 3B
→ 라우터가 토큰마다 쓸 전문가(expert) 선택
→ 토큰당 연산량: 적음 (3B만 계산)
→ 결과: 품질 낮음, 속도 빠름
[직관적 비유]
→ Dense 27B: 27명 전문가가 매 질문마다 전부 회의
→ MoE 35B-A3B: 35명 중 3명만 그때그때 골라서 답변
→ 회의체가 더 좋은 답 내지만 느림
→ 선발대가 빠르지만 가끔 틀림

실전 1 — 벤치마크 비교

# Qwen3.6 패밀리 벤치마크 비교
benchmarks = {
    "SWE-bench Verified": {
        "27B (Dense)":   77.2,
        "35B-A3B (MoE)": 72.0,
        "차이":          "+5.2%p → 27B 우세"
    },
    "Terminal-Bench 2.0": {
        "27B (Dense)":   59.3,
        "35B-A3B (MoE)": 51.5,
        "차이":          "+7.8%p → 27B 우세 (가장 큰 격차)"
    },
    "SkillsBench": {
        "27B (Dense)":   48.2,
        "35B-A3B (MoE)": "~40",
        "차이":          "27B 우세"
    },
    "AIME 2026": {
        "27B (Dense)":   94.1,
        "35B-A3B (MoE)": "유사",
        "차이":          "큰 차이 없음"
    }
}
[벤치마크 해석]
→ 코딩 관련 태스크: 27B가 전 항목에서 앞섬
→ Terminal-Bench 격차 7.8%p: 복잡한 멀티스텝 터미널 작업에서 차이 뚜렷
→ 수학/추론: 두 모델 격차 적음
→ 단순 코드 생성(자동완성): 격차 거의 없음

실전 2 — VRAM 및 속도 비교

하드웨어 선택의 핵심입니다.

# VRAM 요구량 비교 (Q4 양자화 기준)
vram_requirements = {
    "Qwen3.6-27B (Dense)": {
        "Q4_K_M": "~16.8GB",
        "Q5_K_M": "~19.5GB",
        "Q6_K":   "~22.5GB",
        "Q8_0":   "~28.6GB",
        "BF16":   "~55.6GB",
        "권장 GPU": "RTX 4090 (24GB)"
    },
    "Qwen3.6-35B-A3B (MoE)": {
        "Q4_K_M": "~21GB",   # 총 파라미터 35B라 더 큼
        "권장 GPU": "RTX 4090 (24GB) 또는 A6000 (48GB)"
    }
}

# 추론 속도 비교 (RTX 4090 기준)
inference_speed = {
    "27B (Dense)":   "15~25 t/s",   # 느리지만 정확
    "35B-A3B (MoE)": "60~100 t/s",  # 3~5배 빠름
}
[속도 체감 비교]
→ 35B-A3B: 짧은 응답 2~3초
→ 27B: 같은 응답 10~20초
→ 긴 코딩 응답(Thinking 모드): 27B는 수분 소요 가능
→ 인터랙티브 사용: 35B-A3B가 체감상 훨씬 쾌적

실전 3 — 각 모델 서빙 커맨드

두 모델 모두 같은 프레임워크로 서빙 가능합니다.

# ===== Qwen3.6-27B (Dense) =====

# vLLM
vllm serve Qwen/Qwen3.6-27B \
    --port 8000 \
    --tensor-parallel-size 2 \
    --max-model-len 262144 \
    --reasoning-parser qwen3 \
    --enable-auto-tool-choice \
    --tool-call-parser qwen3_coder

# SGLang (MTP 옵션으로 속도 보완 가능)
python -m sglang.launch_server \
    --model-path Qwen/Qwen3.6-27B \
    --port 8000 --tp-size 2 \
    --reasoning-parser qwen3 \
    --speculative-algo NEXTN \
    --speculative-num-steps 3 \
    --speculative-num-draft-tokens 4
# ===== Qwen3.6-35B-A3B (MoE) =====

# vLLM
vllm serve Qwen/Qwen3.6-35B-A3B \
    --port 8000 \
    --tensor-parallel-size 2 \
    --max-model-len 262144 \
    --reasoning-parser qwen3 \
    --enable-auto-tool-choice \
    --tool-call-parser qwen3_coder

# SGLang
python -m sglang.launch_server \
    --model-path Qwen/Qwen3.6-35B-A3B \
    --port 8000 --tp-size 2 \
    --mem-fraction-static 0.8 \
    --context-length 262144 \
    --reasoning-parser qwen3
[서빙 선택 포인트]
→ 두 모델 모두 동일한 커맨드 구조
→ MoE(35B-A3B)는 --language-model-only 옵션 없음 (비전 인코더 구조 다름)
→ SGLang MTP: 27B Dense에서 속도 보완 효과 있음
→ CUDA 13.2 버그 주의 → 두 모델 모두 13.1 또는 12.x 사용

실전 4 — 두 모델 동시 운용 전략

RTX 4090 한 장에서 두 모델을 상황에 따라 교체하는 패턴입니다.

# 워크로드별 모델 선택 로직
def select_qwen_model(task_type, need_speed):

    if task_type == "agentic_coding":
        # 복잡한 멀티스텝 코딩 에이전트
        return "Qwen3.6-27B"   # Terminal-Bench 59.3%

    if task_type == "interactive_chat":
        # 빠른 응답이 필요한 인터랙티브
        return "Qwen3.6-35B-A3B"   # 60~100 t/s

    if task_type == "simple_autocomplete":
        # 단순 코드 자동완성
        return "Qwen3.6-35B-A3B"   # 성능 차이 적고 빠름

    if task_type == "batch_processing":
        # 대량 프롬프트 처리
        return "Qwen3.6-35B-A3B"   # 처리량 3~5배

    if task_type == "code_review":
        # 정확한 리뷰가 중요
        return "Qwen3.6-27B"   # SWE-bench 77.2%

    # 기본값: 정확도 우선
    return "Qwen3.6-27B"
[실무 운용 패턴]
→ 낮: 35B-A3B로 빠른 피드백 받으며 개발
→ 복잡한 문제 막힐 때: 27B로 전환해서 깊이 있는 답 받기
→ 야간 배치: 35B-A3B로 대량 처리
→ LM Studio에서 모델 전환 1~2분이면 가능

한 줄 결론

코딩 에이전트, 최고 품질 필요 → Qwen3.6-27B (Dense)
빠른 응답, 인터랙티브 코딩 → Qwen3.6-35B-A3B (MoE)
둘 다 Apache 2.0, 상업 이용 무료

마무리

✅ 27B (Dense) 선택해야 할 때
→ SWE-bench, Terminal-Bench 등 코딩 에이전트 최고 품질
→ 복잡한 멀티파일 리팩토링, 저장소 단위 작업
→ 속도보다 정확도가 중요한 배치 파이프라인
→ RTX 4090 한 장 있고 응답 대기 OK

✅ 35B-A3B (MoE) 선택해야 할 때
→ 인터랙티브 코딩 어시스턴트 (Cursor, Continue.dev 연동)
→ 빠른 응답 필요한 챗봇, API 서비스
→ 여러 앱 동시에 띄워놓고 GPU 공유
→ 단순 자동완성, 간단한 코드 생성

 

 

 

Qwen3.6-27B 완전 분석 — 27B 모델이 397B MoE 능가

RTX 4090 하나로 프론티어급 코딩 에이전트를 돌릴 수 있는 시대가 왔습니다.[핵심 요약]→ 출시: 2026년 4월 22일, Alibaba Qwen Team→ 라이센스: Apache 2.0 (상업 사용 가능)→ 파라미터: 27B dense (이전 플래

cell-devlog.tistory.com

 

 

SGLang 서빙에 대한 모든 것 — 설치부터 프로덕션까지 완전 가이드

2026년 현재 오픈소스 LLM 추론 엔진 중 실질적인 업계 표준은 SGLang이에요.xAI(Grok), NVIDIA, AMD, LinkedIn, Cursor, Oracle Cloud, Google Cloud, AWS가 프로덕션에 사용 중이고, 전 세계 40만 개 이상의 GPU에서 매일

cell-devlog.tistory.com

 

반응형