본문 바로가기

LLM

Qwen 3.5 완전 분석 — 397B 파라미터인데 왜 저렴하고 빠른가

반응형

2026년 2월 16일, Alibaba가 Qwen 3.5를 공개했어요.

공개하자마자 오픈소스 AI 커뮤니티가 뒤집혔어요.

Qwen3.5-9B → GPT-OSS-120B(13배 큰 모델) 성능 능가
Qwen3.5-35B-A3B → 이전 세대 235B 플래그십 능가
Qwen3.5-397B-A17B → GPT-5.2, Gemini 3 Pro와 정면 승부
Apache 2.0 → 상업적 사용 완전 무료

핵심 — MoE 아키텍처가 뭔가

Qwen 3.5의 핵심은 Sparse Mixture-of-Experts(희소 혼합 전문가) 구조예요.

일반 LLM:
요청 → 전체 파라미터 사용 → 응답
(100% 파라미터 항상 활성화)

Qwen 3.5 MoE:
요청 → 관련 전문가 그룹만 활성화 → 응답
(총 397B 중 17B만 활성화)

활성화 비율: 4.3%

뇌 비유로 설명하면 이래요. 수학 문제 풀 때는 수학 담당 뉴런만 활성화하고, 언어 처리할 때는 언어 담당 뉴런만 활성화해요. 에너지 낭비 없이 필요한 부분만 써요.

결과:

이전 세대(Qwen3-Max) 대비:
비용: 60% 감소
속도: 8.6x ~ 19x 빠름 (컨텍스트 길이에 따라)
8xH100: 초당 45 토큰 생성

모델 라인업 전체 정리

3번에 걸쳐 출시됐어요.

1차 출시 (2월 16일):
Qwen3.5-397B-A17B — 플래그십 (397B 전체 / 17B 활성)
Qwen3.5-Plus      — 클라우드 API 버전 (1M 컨텍스트)

2차 출시 (2월 24일):
Qwen3.5-27B       — 27B 덴스 모델
Qwen3.5-35B-A3B   — 35B 전체 / 3B 활성
Qwen3.5-122B-A10B — 122B 전체 / 10B 활성

3차 출시 (3월 2일):
Qwen3.5-0.8B      — 초소형 (2GB VRAM)
Qwen3.5-2B        — 소형
Qwen3.5-4B        — 중소형
Qwen3.5-9B        — 소형 시리즈 플래그십

전부 Apache 2.0 — 상업적 이용 완전 무료예요.


벤치마크 — 실제로 얼마나 잘하나

지시 따르기 (Instruction Following)

IFBench 점수:
Qwen 3.5:   76.5 ← 1위
GPT-5.2:    75.4
Claude Opus 4.6: 58.0

→ 지시 이행 능력 1위

수학/추론

AIME 2026:
GPT-5.2:        96.7
Claude Opus 4.6: 93.3
Qwen 3.5:       91.3

HMMT Feb 2025:
Qwen 3.5:       94.8 ← 경쟁력 있음

수학은 GPT-5.2, Claude Opus 4.6에 약간 뒤져요.

에이전트 코딩 (SWE-bench Verified)

Claude Opus 4.6: 80%+ ← 1위
Qwen 3.5:       76.4
GPT-5.2:        ~75%

→ Claude가 에이전트 코딩 여전히 1위
  근데 Qwen이 바짝 따라옴

툴 사용 (Function Calling)

BFCL-V4:
Qwen3.5-122B-A10B: 72.2 ← 오픈소스 1위
GPT-5 mini:        55.5

→ 30% 차이. 함수 호출 능력 압도적

멀티모달 (비전)

MathVision:
Qwen 3.5:   88.6 ← 1위
Gemini 3 Pro: 86.6
GPT-5.2:    83.0

MMMU:
Qwen 3.5:   85.0
Qwen3-VL:   80.6 (이전 세대)

→ 비전 추론 최강

충격적인 소형 모델 성능

Qwen3.5-9B vs GPT-OSS-120B (13배 큰 모델):

MMLU-Pro:   82.5 vs 80.8 → Qwen 승
GPQA Diamond: 81.7 vs 80.1 → Qwen 승
MMMU-Pro:   70.1 vs 57.2 → Qwen 압도 (+22.5%)

9B가 120B를 이겨요.


새로운 아키텍처 — Gated Delta Networks

일반 Transformer의 Attention과 다른 선형 어텐션 방식이에요.

일반 Transformer Attention:
모든 토큰끼리 관계 계산
→ 토큰 수 늘어날수록 계산량 제곱으로 증가

Gated Delta Networks (선형 어텐션):
중요한 것만 선택적으로 처리
→ 토큰 수 늘어도 선형으로 증가

3:1 비율로 혼합:
레이어 4개 중 3개 → 선형 어텐션 (빠름)
레이어 1개 → 풀 어텐션 (정확도 유지)

이게 1M 컨텍스트를 현실적인 비용으로 가능하게 해요.

1M 토큰 처리 비용:
Qwen3.5-Plus: ~$0.18
Claude Opus 4.6: ~$5.00 이상

→ 28배 저렴

멀티모달 — 나중에 붙인 게 아님

대부분 LLM이 텍스트 모델을 먼저 만들고 이미지를 나중에 붙여요.

Qwen 3.5는 처음부터 같이 학습했어요.

기존 방식:
텍스트 모델 학습 → 이미지 인코더 붙이기
→ 두 모달리티가 어색하게 연결됨

Qwen 3.5 방식:
텍스트 + 이미지 토큰을 처음부터 함께 학습
→ 자연스러운 멀티모달 이해

가능해진 것들:

UI 스크린샷 → 자연어 지시로 앱 조작
문서 이미지 → 내용 이해 + 질문 답변
차트/그래프 → 데이터 분석
수학 문제 이미지 → 풀이 (MathVision 1위)

로컬에서 직접 실행하기

Ollama로 설치 (제일 간단):

# 소형 모델 (일반 노트북)
ollama run qwen3.5:0.8b  # 2GB VRAM
ollama run qwen3.5:4b    # 4GB VRAM
ollama run qwen3.5:9b    # 8GB VRAM

# 중형 모델 (고사양 PC)
ollama run qwen3.5:27b      # 24GB+ VRAM
ollama run qwen3.5:35b-a3b  # 8GB VRAM (MoE라 활성 파라미터 적음)

# 플래그십 (서버급)
ollama run qwen3.5  # 40GB+ VRAM

vLLM으로 서빙 (프로덕션):

pip install vllm

python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen3.5-35B-A3B \
  --tensor-parallel-size 2 \
  --max-model-len 32768

# OpenAI 호환 API로 바로 사용
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3.5-35B-A3B",
    "messages": [{"role": "user", "content": "안녕하세요"}]
  }'

API로 쓰기 (Alibaba Cloud):

from openai import OpenAI

client = OpenAI(
    api_key="your-dashscope-api-key",
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
)

response = client.chat.completions.create(
    model="qwen3.5-plus",
    messages=[
        {"role": "user", "content": "코드 리뷰해줘"}
    ]
)

OpenAI SDK 그대로 써요. base_url만 바꾸면 돼요.

 

 

sglang으로 서빙 (프로덕션):

# 설치
pip install sglang[all]

# Qwen 3.5 서빙
python -m sglang.launch_server \
  --model-path Qwen/Qwen3.5-35B-A3B \
  --tp 2 \
  --context-length 32768 \
  --port 30000

# 사용
curl http://localhost:30000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3.5-35B-A3B",
    "messages": [{"role": "user", "content": "안녕"}]
  }'

Thinking 모드 켜기:

python -m sglang.launch_server \
  --model-path Qwen/Qwen3.5-35B-A3B \
  --tp 2 \
  --reasoning-parser qwen3 \  # Thinking 모드 파싱
  --port 30000

VRAM 기준:

35B-A3B: 8GB+ (MoE라 활성 파라미터 3B만)
27B:     24GB+
9B:      8GB+

 


Thinking 모드 vs Fast 모드

Qwen 3.5의 독특한 기능이에요.

# Thinking 모드 (느리지만 정확)
response = client.chat.completions.create(
    model="qwen3.5-plus",
    messages=[{"role": "user", "content": "이 알고리즘 복잡도 분석해줘"}],
    extra_body={"enable_thinking": True}
)

# Fast 모드 (빠른 응답)
response = client.chat.completions.create(
    model="qwen3.5-plus",
    messages=[{"role": "user", "content": "안녕하세요"}],
    extra_body={"enable_thinking": False}
)

# Auto 모드 (Plus만) — 알아서 판단
response = client.chat.completions.create(
    model="qwen3.5-plus",
    messages=[{"role": "user", "content": "복잡한 문제..."}],
    extra_body={"thinking_mode": "auto"}
)

단순 질문엔 Fast, 복잡한 추론엔 Thinking으로 자동 전환해요.


Claude Code에서 Qwen 3.5 연동

Qwen 3.5는 OpenAI 호환 API를 지원해요. Claude Code나 다른 도구에서 바로 쓸 수 있어요.

# Claude Code에서 사용
export ANTHROPIC_BASE_URL=https://dashscope.aliyuncs.com/compatible-mode/v1
export ANTHROPIC_API_KEY=your-dashscope-key

claude --model qwen3.5-plus

또는 로컬 vLLM 서버 연결:

claude --model qwen3.5:35b-a3b \
  --api-url http://localhost:8000

가격 비교

Claude Sonnet 4.6:    $3/$15 per M tokens
Qwen3.5-Flash:        $0.10/$0.30 per M tokens → 13배 저렴
Qwen3.5-Plus:         ~$0.18/1M 토큰 (1M 컨텍스트 기준)
로컬 실행 (자체 GPU): 토큰당 비용 사실상 $0

어떤 상황에 쓰면 좋나

Qwen 3.5가 제일 나은 경우:
✅ 비전 추론 (MathVision, 문서 이해)
✅ 지시 따르기 (IFBench 1위)
✅ 함수 호출 에이전트 (BFCL-V4 오픈소스 1위)
✅ 비용 민감한 프로덕션
✅ 로컬 배포 필요 (Apache 2.0)
✅ 201개 언어 지원 필요
✅ 1M 컨텍스트 저렴하게 쓰고 싶을 때

Claude Opus 4.6이 더 나은 경우:
✅ 에이전트 코딩 (SWE-bench 1위)
✅ 복잡한 추론 (AIME)
✅ 안정성이 최우선인 프로덕션

 

반응형