API 비용이 쌓이기 시작하면 로컬 LLM을 찾게 됩니다. 문제는 영어 벤치마크 숫자는 넘쳐나는데 한국어로 실제로 어떻게 동작하는지 확인한 자료가 없다는 점입니다. Qwen 3.7 계열을 직접 돌려보고 정리했습니다.
핵심 요약
먼저 Qwen 3.7과 3.6의 관계부터 짚어야 헷갈리지 않습니다. Qwen 3.7 Max는 2026년 5월 19일 알리바바가 공개한 클로즈드 API 전용 모델로, 다운로드하거나 로컬에서 돌릴 수 없습니다. 반면 Qwen 3.6 계열은 Apache 2.0 라이선스로 풀린 오픈웨이트라서 직접 내려받아 Ollama나 vLLM으로 실행할 수 있습니다.
이 글에서는 API 테스트는 Qwen 3.7 Max로, 로컬 실행은 Qwen 3.6으로 나눠서 다룹니다.
한국어 지원 측면에서 Qwen 3.x 계열은 이전 세대 대비 확실히 달라졌습니다. 어휘 크기를 기존 15만에서 25만으로 늘리면서 한국어, 일본어, 아랍어 같은 비라틴 언어의 인코딩 효율이 10~60% 개선됐고, 지원 언어도 119개에서 201개로 늘었습니다.
성능 포지셔닝을 보면 Qwen 3.7 Max는 알리바바 자체 벤치마크에서 Claude Opus 4.6와 비슷한 수준으로 나오고, 특히 장문 컨텍스트 추론과 멀티링궐 태스크에서 강세를 보입니다.
Qwen 3.6-27B는 SWE-bench Verified에서 77.2%를 찍으면서 397B MoE 모델을 코딩 벤치마크에서 앞질렀고, VRAM 18GB짜리 GPU에서 돌아갑니다. 한국어 품질이 중요한 로컬 실행 환경에서는 EXAONE 3.5, GLM-4와 함께 3대 후보군으로 꼽힙니다.
실전에서 주의할 점도 있습니다. 창의적 글쓰기나 감성적인 표현은 Claude나 GPT 계열에 비해 다소 건조하고 기능 위주의 문체가 나옵니다. 문화적 뉘앙스나 한국 특유의 맥락이 필요한 작업에서는 가끔 어색함이 느껴지고, 벤치마크 숫자가 실제 사용 경험을 100% 보장하지는 않습니다. 그래도 코딩, 요약, 데이터 처리처럼 구조화된 작업에서는 비용 대비 성능이 충분히 납득됩니다.
실전 1: Ollama로 Qwen 3.6 로컬 실행
로컬 실행의 첫 번째 고민은 어떤 사이즈를 고르냐입니다. Qwen 3.6-35B-A3B는 MoE 아키텍처라 전체 파라미터는 35B지만 실제 추론 시 3B만 활성화되어 22GB VRAM으로 돌아갑니다. RTX 3090이나 4090 한 장이면 충분해서 가장 현실적인 선택지입니다. Qwen 3.6-27B는 Dense 모델로 성능이 더 높지만 VRAM 요구량도 그만큼 올라갑니다.
Ollama를 이미 설치했다면 아래 명령어 하나로 끝납니다. 모델 파일이 없으면 자동으로 다운로드하고, 있으면 바로 실행합니다.
# MoE 경량 버전 (22GB VRAM, RTX 3090/4090)
ollama run qwen3.6:35b-a3b
# Dense 고성능 버전 (VRAM 여유 있을 때)
ollama run qwen3.6:27b
# 한국어 테스트
ollama run qwen3.6:35b-a3b "한국의 사계절을 각각 200자 이내로 설명해줘"
처음 실행 시 모델 파일 다운로드에 시간이 걸리지만 이후에는 로컬 캐시에서 바로 로드됩니다. 첫 쿼리가 이후보다 느린 건 정상이고, 모델이 메모리에 올라가면 이후 응답 속도는 안정됩니다.
실전 2: Python으로 한국어 성능 테스트
API 방식으로 테스트하려면 OpenAI 호환 클라이언트를 그대로 쓸 수 있습니다. Qwen 3.7 Max와 Qwen 3.6 모두 OpenAI API 스펙과 호환되기 때문에 endpoint와 모델명만 바꾸면 됩니다. 아래는 한국어 요약, 번역, 코드 설명 세 가지 태스크를 자동으로 돌리는 테스트 스크립트입니다.
from openai import OpenAI
# Qwen 3.7 Max API (클라우드)
client_api = OpenAI(
api_key="YOUR_DASHSCOPE_API_KEY",
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
)
# Qwen 3.6 로컬 (Ollama)
client_local = OpenAI(
api_key="ollama", # 아무 값이나 가능
base_url="http://localhost:11434/v1"
)
def test_korean(client, model_name: str, task: str, prompt: str) -> dict:
response = client.chat.completions.create(
model=model_name,
messages=[{"role": "user", "content": prompt}],
temperature=0.7,
max_tokens=1024
)
return {
"task": task,
"model": model_name,
"output": response.choices[0].message.content,
"tokens": response.usage.total_tokens
}
# 테스트 케이스 정의
test_cases = [
{
"task": "한국어 요약",
"prompt": "다음 내용을 한국어로 300자 이내로 요약해주세요: LangGraph는 2026년 프로덕션 AI 에이전트의 표준 프레임워크로, Klarna, Uber, LinkedIn이 실제로 사용하고 있습니다. 체크포인팅, Human-in-the-loop, 스트리밍을 내장 지원합니다."
},
{
"task": "한국어 코드 설명",
"prompt": "아래 Python 코드를 한국어로 쉽게 설명해주세요:\n\ndef fibonacci(n):\n if n <= 1:\n return n\n return fibonacci(n-1) + fibonacci(n-2)"
},
{
"task": "한국어 창작",
"prompt": "서울의 가을 풍경을 묘사하는 짧은 글을 한국어로 써주세요. 200자 내외로 작성해주세요."
}
]
# API 버전과 로컬 버전 비교 실행
print("=== Qwen 3.7 Max (API) 테스트 ===")
for case in test_cases:
result = test_korean(client_api, "qwen-max", case["task"], case["prompt"])
print(f"\n[{result['task']}] 토큰: {result['tokens']}")
print(result["output"][:300])
print("\n=== Qwen 3.6 (로컬) 테스트 ===")
for case in test_cases:
result = test_korean(client_local, "qwen3.6:35b-a3b", case["task"], case["prompt"])
print(f"\n[{result['task']}]")
print(result["output"][:300])
스크립트를 실행하면 API 버전과 로컬 버전의 출력을 나란히 볼 수 있습니다. 결과를 보면 요약과 코드 설명은 두 버전 모두 자연스러운 한국어가 나오고, 창작 항목에서 API 버전이 조금 더 유연한 표현을 씁니다.
실전 3: vLLM으로 프로덕션 서버 띄우기
팀 단위로 쓰거나 여러 요청을 동시에 처리해야 한다면 vLLM이 맞습니다. Ollama는 단일 사용자용으로 설계됐지만 vLLM은 Continuous Batching으로 동시 요청을 효율적으로 처리하고, 추론 속도도 더 빠릅니다. Qwen 3.6의 Thinking 기능을 활성화하려면 반드시 --enable-reasoning 플래그가 필요합니다.
아래는 vLLM으로 Qwen 3.6을 OpenAI 호환 API 서버로 띄우는 명령어입니다. 서버가 뜨면 기존 OpenAI 클라이언트 코드의 base_url만 바꿔서 그대로 사용할 수 있습니다.
# vLLM 설치
pip install vllm>=0.9.0
# Qwen 3.6 35B-A3B 서버 실행 (Thinking 모드 포함)
vllm serve Qwen/Qwen3.6-35B-A3B \
--port 8000 \
--max-model-len 131072 \
--enable-reasoning \
--reasoning-parser qwen3 \
--quantization awq
# 서버 확인
curl http://localhost:8000/v1/models
AWQ 양자화를 쓰면 VRAM 사용량을 줄이면서 속도를 높일 수 있습니다. 복잡한 추론 태스크에서는 4비트 양자화 시 품질 저하가 눈에 띄므로, 한국어 창작이나 장문 분석이 주 용도라면 AWQ나 GPTQ를 쓰는 게 낫고 FP4는 피합니다.
실전 4: Thinking 모드로 한국어 추론 성능 끌어올리기
Qwen 3.x 계열의 차별점 중 하나가 하이브리드 Thinking 모드입니다. 단순 질문에는 일반 모드로 빠르게 응답하고, 복잡한 추론이 필요할 때는 내부적으로 단계별로 생각한 뒤 최종 답을 냅니다. Ollama에서는 프롬프트에 /think 태그를 붙이면 됩니다.
아래는 Thinking 모드를 한국어 논리 문제에 적용하는 예시입니다. 모델이 한국어로 단계별 추론 과정을 출력한 뒤 결론을 내는 흐름을 볼 수 있습니다.
import ollama
# Thinking 모드 활성화 한국어 추론 테스트
response = ollama.chat(
model="qwen3.6:35b-a3b",
messages=[
{
"role": "user",
"content": """/think
다음 문제를 한국어로 단계별로 풀어주세요:
철수는 사과 12개를 가지고 있습니다.
영희에게 전체의 1/3을 주고,
민수에게 남은 것의 절반을 주었습니다.
철수에게 남은 사과는 몇 개인가요?
각 단계를 명확히 설명해주세요.
"""
}
],
options={"temperature": 0.6}
)
# thinking 내용과 최종 답변 분리
full_response = response.message.content
if "<think>" in full_response:
thinking = full_response.split("<think>")[1].split("</think>")[0]
answer = full_response.split("</think>")[1].strip()
print("=== 추론 과정 ===")
print(thinking[:500])
print("\n=== 최종 답변 ===")
print(answer)
else:
print(full_response)
Thinking 모드를 켜면 한국어 수학 문제나 다단계 논리 추론에서 오답률이 눈에 띄게 줄어듭니다. 단, 응답 시간이 길어지므로 단순 번역이나 요약 같은 태스크에서는 굳이 쓸 필요가 없습니다.
실제 한국어 품질 평가
직접 돌려본 결과를 솔직하게 정리하면 이렇습니다. 한국어 문법과 어휘는 상당히 자연스럽고, 기술 문서 번역이나 코드 설명 같은 구조화된 작업은 GPT와 비교해도 크게 뒤지지 않습니다. 다국어 처리 MMMLU 벤치마크에서 Qwen 3.5-9B가 gpt-oss-120B를 앞섰다는 결과가 실제로 체감됩니다.
단점도 있습니다. 감성적이거나 창의적인 표현은 다소 딱딱하게 나오고, 한국 문화나 관용어에 대한 이해는 아직 GPT나 EXAONE 계열이 낫습니다. 한국어로 오래 대화하다 보면 중간에 중국어 단어가 섞여 나오는 경우가 드물게 있고, 이럴 때는 시스템 프롬프트에 "반드시 한국어로만 답변하세요"를 명시적으로 박아두는 게 안전합니다.
# 한국어 고정 시스템 프롬프트 설정
system_prompt = """당신은 한국어 전문 AI 어시스턴트입니다.
반드시 한국어로만 답변하고, 다른 언어 사용을 절대 금지합니다.
전문 용어도 한국어 번역이 있으면 우선 사용하세요."""
response = client_local.chat.completions.create(
model="qwen3.6:35b-a3b",
messages=[
{"role": "system", "content": system_prompt},
{"role": "user", "content": "AI 에이전트 프레임워크에 대해 설명해줘"}
]
)
시스템 프롬프트 하나만 추가해도 한국어 일관성이 눈에 띄게 올라가므로, 실제 서비스에 붙일 때는 반드시 세팅해두는 걸 권장합니다.
마무리
Qwen 3.7 / 3.6은 "API 비용을 줄이면서 한국어도 돼야 한다"는 조건에서 현실적인 선택지입니다. 코딩, 요약, 번역, 데이터 처리 같은 구조화된 작업은 충분히 GPT 급의 결과가 나오고, 로컬에서 돌릴 수 있다는 것 자체가 데이터 보안이 중요한 환경에서는 결정적인 장점입니다. 감성 글쓰기나 한국 문화 맥락이 핵심인 서비스라면 EXAONE이나 GPT를 쓰는 편이 낫고, 그 외 대부분의 개발자 태스크에서는 Qwen 3.6이 충분합니다. Thinking 모드 + 한국어 시스템 프롬프트 조합이 현재로서 최선의 셋업이고, 성능이 더 필요하다면 API로 Qwen 3.7 Max를 붙이면 됩니다.
'LLM' 카테고리의 다른 글
| Qwen3.7 Plus 실전 테스트: 영상·이미지 입력에 1M 컨텍스트, GPT-5.5의 1/9 가격 (0) | 2026.06.23 |
|---|---|
| DeepSeek V4 로컬 실행 완전분석 (0) | 2026.06.23 |
| vLLM vs SGLang — 프로덕션 LLM 서빙 프레임워크 어떻게 골라야 하나 (0) | 2026.06.15 |
| Windows AI 로컬 에이전트 Aion 1.0 — OS에 내장된 14B 추론 모델이 뭘 바꾸나 (0) | 2026.06.15 |
| MiniMax M2.5 vs M3 비교 — 무엇이 달라졌고 언제 업그레이드해야 하나 (0) | 2026.06.15 |