2026년 2월 16일, Alibaba가 Qwen 3.5를 공개했어요.
공개하자마자 오픈소스 AI 커뮤니티가 뒤집혔어요.
Qwen3.5-9B → GPT-OSS-120B(13배 큰 모델) 성능 능가
Qwen3.5-35B-A3B → 이전 세대 235B 플래그십 능가
Qwen3.5-397B-A17B → GPT-5.2, Gemini 3 Pro와 정면 승부
Apache 2.0 → 상업적 사용 완전 무료
핵심 — MoE 아키텍처가 뭔가
Qwen 3.5의 핵심은 Sparse Mixture-of-Experts(희소 혼합 전문가) 구조예요.
일반 LLM:
요청 → 전체 파라미터 사용 → 응답
(100% 파라미터 항상 활성화)
Qwen 3.5 MoE:
요청 → 관련 전문가 그룹만 활성화 → 응답
(총 397B 중 17B만 활성화)
활성화 비율: 4.3%
뇌 비유로 설명하면 이래요. 수학 문제 풀 때는 수학 담당 뉴런만 활성화하고, 언어 처리할 때는 언어 담당 뉴런만 활성화해요. 에너지 낭비 없이 필요한 부분만 써요.
결과:
이전 세대(Qwen3-Max) 대비:
비용: 60% 감소
속도: 8.6x ~ 19x 빠름 (컨텍스트 길이에 따라)
8xH100: 초당 45 토큰 생성
모델 라인업 전체 정리
3번에 걸쳐 출시됐어요.
1차 출시 (2월 16일):
Qwen3.5-397B-A17B — 플래그십 (397B 전체 / 17B 활성)
Qwen3.5-Plus — 클라우드 API 버전 (1M 컨텍스트)
2차 출시 (2월 24일):
Qwen3.5-27B — 27B 덴스 모델
Qwen3.5-35B-A3B — 35B 전체 / 3B 활성
Qwen3.5-122B-A10B — 122B 전체 / 10B 활성
3차 출시 (3월 2일):
Qwen3.5-0.8B — 초소형 (2GB VRAM)
Qwen3.5-2B — 소형
Qwen3.5-4B — 중소형
Qwen3.5-9B — 소형 시리즈 플래그십
전부 Apache 2.0 — 상업적 이용 완전 무료예요.
벤치마크 — 실제로 얼마나 잘하나
지시 따르기 (Instruction Following)
IFBench 점수:
Qwen 3.5: 76.5 ← 1위
GPT-5.2: 75.4
Claude Opus 4.6: 58.0
→ 지시 이행 능력 1위
수학/추론
AIME 2026:
GPT-5.2: 96.7
Claude Opus 4.6: 93.3
Qwen 3.5: 91.3
HMMT Feb 2025:
Qwen 3.5: 94.8 ← 경쟁력 있음
수학은 GPT-5.2, Claude Opus 4.6에 약간 뒤져요.
에이전트 코딩 (SWE-bench Verified)
Claude Opus 4.6: 80%+ ← 1위
Qwen 3.5: 76.4
GPT-5.2: ~75%
→ Claude가 에이전트 코딩 여전히 1위
근데 Qwen이 바짝 따라옴
툴 사용 (Function Calling)
BFCL-V4:
Qwen3.5-122B-A10B: 72.2 ← 오픈소스 1위
GPT-5 mini: 55.5
→ 30% 차이. 함수 호출 능력 압도적
멀티모달 (비전)
MathVision:
Qwen 3.5: 88.6 ← 1위
Gemini 3 Pro: 86.6
GPT-5.2: 83.0
MMMU:
Qwen 3.5: 85.0
Qwen3-VL: 80.6 (이전 세대)
→ 비전 추론 최강
충격적인 소형 모델 성능
Qwen3.5-9B vs GPT-OSS-120B (13배 큰 모델):
MMLU-Pro: 82.5 vs 80.8 → Qwen 승
GPQA Diamond: 81.7 vs 80.1 → Qwen 승
MMMU-Pro: 70.1 vs 57.2 → Qwen 압도 (+22.5%)
9B가 120B를 이겨요.
새로운 아키텍처 — Gated Delta Networks
일반 Transformer의 Attention과 다른 선형 어텐션 방식이에요.
일반 Transformer Attention:
모든 토큰끼리 관계 계산
→ 토큰 수 늘어날수록 계산량 제곱으로 증가
Gated Delta Networks (선형 어텐션):
중요한 것만 선택적으로 처리
→ 토큰 수 늘어도 선형으로 증가
3:1 비율로 혼합:
레이어 4개 중 3개 → 선형 어텐션 (빠름)
레이어 1개 → 풀 어텐션 (정확도 유지)
이게 1M 컨텍스트를 현실적인 비용으로 가능하게 해요.
1M 토큰 처리 비용:
Qwen3.5-Plus: ~$0.18
Claude Opus 4.6: ~$5.00 이상
→ 28배 저렴
멀티모달 — 나중에 붙인 게 아님
대부분 LLM이 텍스트 모델을 먼저 만들고 이미지를 나중에 붙여요.
Qwen 3.5는 처음부터 같이 학습했어요.
기존 방식:
텍스트 모델 학습 → 이미지 인코더 붙이기
→ 두 모달리티가 어색하게 연결됨
Qwen 3.5 방식:
텍스트 + 이미지 토큰을 처음부터 함께 학습
→ 자연스러운 멀티모달 이해
가능해진 것들:
UI 스크린샷 → 자연어 지시로 앱 조작
문서 이미지 → 내용 이해 + 질문 답변
차트/그래프 → 데이터 분석
수학 문제 이미지 → 풀이 (MathVision 1위)
로컬에서 직접 실행하기
Ollama로 설치 (제일 간단):
# 소형 모델 (일반 노트북)
ollama run qwen3.5:0.8b # 2GB VRAM
ollama run qwen3.5:4b # 4GB VRAM
ollama run qwen3.5:9b # 8GB VRAM
# 중형 모델 (고사양 PC)
ollama run qwen3.5:27b # 24GB+ VRAM
ollama run qwen3.5:35b-a3b # 8GB VRAM (MoE라 활성 파라미터 적음)
# 플래그십 (서버급)
ollama run qwen3.5 # 40GB+ VRAM
vLLM으로 서빙 (프로덕션):
pip install vllm
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen3.5-35B-A3B \
--tensor-parallel-size 2 \
--max-model-len 32768
# OpenAI 호환 API로 바로 사용
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen3.5-35B-A3B",
"messages": [{"role": "user", "content": "안녕하세요"}]
}'
API로 쓰기 (Alibaba Cloud):
from openai import OpenAI
client = OpenAI(
api_key="your-dashscope-api-key",
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
)
response = client.chat.completions.create(
model="qwen3.5-plus",
messages=[
{"role": "user", "content": "코드 리뷰해줘"}
]
)
OpenAI SDK 그대로 써요. base_url만 바꾸면 돼요.
sglang으로 서빙 (프로덕션):
# 설치
pip install sglang[all]
# Qwen 3.5 서빙
python -m sglang.launch_server \
--model-path Qwen/Qwen3.5-35B-A3B \
--tp 2 \
--context-length 32768 \
--port 30000
# 사용
curl http://localhost:30000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen3.5-35B-A3B",
"messages": [{"role": "user", "content": "안녕"}]
}'
Thinking 모드 켜기:
python -m sglang.launch_server \
--model-path Qwen/Qwen3.5-35B-A3B \
--tp 2 \
--reasoning-parser qwen3 \ # Thinking 모드 파싱
--port 30000
VRAM 기준:
35B-A3B: 8GB+ (MoE라 활성 파라미터 3B만)
27B: 24GB+
9B: 8GB+
Thinking 모드 vs Fast 모드
Qwen 3.5의 독특한 기능이에요.
# Thinking 모드 (느리지만 정확)
response = client.chat.completions.create(
model="qwen3.5-plus",
messages=[{"role": "user", "content": "이 알고리즘 복잡도 분석해줘"}],
extra_body={"enable_thinking": True}
)
# Fast 모드 (빠른 응답)
response = client.chat.completions.create(
model="qwen3.5-plus",
messages=[{"role": "user", "content": "안녕하세요"}],
extra_body={"enable_thinking": False}
)
# Auto 모드 (Plus만) — 알아서 판단
response = client.chat.completions.create(
model="qwen3.5-plus",
messages=[{"role": "user", "content": "복잡한 문제..."}],
extra_body={"thinking_mode": "auto"}
)
단순 질문엔 Fast, 복잡한 추론엔 Thinking으로 자동 전환해요.
Claude Code에서 Qwen 3.5 연동
Qwen 3.5는 OpenAI 호환 API를 지원해요. Claude Code나 다른 도구에서 바로 쓸 수 있어요.
# Claude Code에서 사용
export ANTHROPIC_BASE_URL=https://dashscope.aliyuncs.com/compatible-mode/v1
export ANTHROPIC_API_KEY=your-dashscope-key
claude --model qwen3.5-plus
또는 로컬 vLLM 서버 연결:
claude --model qwen3.5:35b-a3b \
--api-url http://localhost:8000
가격 비교
Claude Sonnet 4.6: $3/$15 per M tokens
Qwen3.5-Flash: $0.10/$0.30 per M tokens → 13배 저렴
Qwen3.5-Plus: ~$0.18/1M 토큰 (1M 컨텍스트 기준)
로컬 실행 (자체 GPU): 토큰당 비용 사실상 $0
어떤 상황에 쓰면 좋나
Qwen 3.5가 제일 나은 경우:
✅ 비전 추론 (MathVision, 문서 이해)
✅ 지시 따르기 (IFBench 1위)
✅ 함수 호출 에이전트 (BFCL-V4 오픈소스 1위)
✅ 비용 민감한 프로덕션
✅ 로컬 배포 필요 (Apache 2.0)
✅ 201개 언어 지원 필요
✅ 1M 컨텍스트 저렴하게 쓰고 싶을 때
Claude Opus 4.6이 더 나은 경우:
✅ 에이전트 코딩 (SWE-bench 1위)
✅ 복잡한 추론 (AIME)
✅ 안정성이 최우선인 프로덕션
'LLM' 카테고리의 다른 글
| vLLM, SGLang이 빠른 이유 — Continuous Batching 원리와 실전 (0) | 2026.04.15 |
|---|---|
| SLM 실전 가이드 — Gemma 4, Qwen3.5, Phi-4로 API 비용 95% 줄이는 법 (1) | 2026.04.15 |
| LLM 프루닝 완전 정리 — 모델 크기 40% 줄이면서 성능 유지하는 법 (0) | 2026.04.14 |
| Mac TurboQuant 실전 가이드 — 쓰기 전vs후 비교 (0) | 2026.04.13 |
| Anthropic이 가장 강력한 모델을 공개하지 않은 이유 — Mythos Preview 완전 분석 (0) | 2026.04.10 |