API 비용 0원, 코드 외부 전송 없음. RTX 4090 한 장으로 프론티어급 코딩 에이전트를 로컬에서 돌립니다.
[핵심 요약]
→ 이번 글에서 다루는 것:
→ 1단계: vLLM로 로컬 서버 띄우기
→ 2단계: Aider 연동 — CLI 코딩 에이전트
→ 3단계: Continue.dev 연동 — VS Code 인라인 어시스턴트
→ 4단계: Cursor 연동 — 에이전트 모드
→ 5단계: Qwen Code 연동 — Claude Code 대안
→ CUDA 13.2 버그, Thinking 모드, Ollama 미지원 주의사항 포함
왜 로컬인가
클라우드 API 방식:
→ Claude Opus 4.7: 입력 $5, 출력 $25 / 1M tokens
→ GPT-5.5: 입력 $5, 출력 $30 / 1M tokens
→ 코드가 외부 서버로 전송됨
→ GDPR, 사내 보안 규정 위반 가능
Qwen3.6-27B 로컬 방식:
→ 초기 모델 다운로드 후 추가 비용 0원
→ 코드가 외부로 나가지 않음
→ 인터넷 없이도 사용 가능
→ SWE-bench Verified 77.2% — Claude Opus 4.6 대비 3.6점 차
월 1억 토큰 이상 사용하거나, 보안상 코드를 외부로 보낼 수 없는 환경이라면 로컬 서빙이 경제적으로 압도적입니다.
실전 1 — 로컬 서버 띄우기 (vLLM)
모든 연동 툴의 기반이 되는 OpenAI 호환 API 서버를 먼저 띄웁니다.
# 1. vLLM 설치 (0.19.0 이상 필수)
pip install "vllm>=0.19.0" --torch-backend=auto
# 2. 모델 다운로드 (약 55.6GB BF16 / Q4 약 16.8GB)
# GGUF 양자화 버전 (llama.cpp용)
huggingface-cli download unsloth/Qwen3.6-27B-GGUF \
Qwen3.6-27B-UD-Q4_K_XL.gguf
# 3. vLLM 서버 실행 (GPU 2장 기준)
vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 2 \
--max-model-len 131072 \
--reasoning-parser qwen3 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder
# GPU 1장 (RTX 4090) 기준
vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 1 \
--max-model-len 32768 \
--reasoning-parser qwen3 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--language-model-only # 비전 인코더 제외 → VRAM 절약
[서버 설정 핵심 포인트]
→ --reasoning-parser qwen3: Thinking 모드 파싱 필수, 없으면 <think> 태그 그대로 노출
→ --tool-call-parser qwen3_coder: 에이전트 툴 호출 필수
→ --max-model-len: GPU 1장이면 32768~65536 권장, OOM 방지
→ --language-model-only: 비전 기능 안 쓸 때 VRAM 2~4GB 절약
→ CUDA 13.2 버그: 출력이 깨짐 → CUDA 13.1 또는 12.x 사용할 것
서버가 뜨면 http://localhost:8000/v1로 OpenAI 호환 API가 생성됩니다. 이후 모든 툴은 이 엔드포인트에 붙습니다.
실전 2 — Aider 연동
Aider는 CLI 기반 코딩 에이전트로, git 연동과 멀티파일 편집을 네이티브로 지원합니다.
# Aider 설치
pip install aider-chat
# Qwen3.6-27B 로컬 서버 연동
aider \
--model openai/Qwen/Qwen3.6-27B \
--openai-api-base http://localhost:8000/v1 \
--openai-api-key EMPTY
# 프로젝트 디렉토리에서 실행
cd your-project
aider \
--model openai/Qwen/Qwen3.6-27B \
--openai-api-base http://localhost:8000/v1 \
--openai-api-key EMPTY \
--no-auto-commits # 자동 커밋 끄기 (원할 경우)
Aider 실행 후 사용 예시:
# Aider 프롬프트에서
> FastAPI 인증 시스템에서 JWT 만료 처리 버그 고쳐줘
# Aider가 자동으로:
# 1. 관련 파일 분석
# 2. 수정 사항 제안
# 3. git diff 보여줌
# 4. 확인 후 자동 커밋
[Aider + Qwen3.6-27B 조합 포인트]
→ --model 앞에 openai/ 접두어 필수
→ --openai-api-key는 아무 값이나 넣어도 됨 (로컬 서버는 검증 안 함)
→ Thinking 모드: 서버에서 --reasoning-parser qwen3 설정하면 자동 적용
→ Ollama 미지원: Qwen3.6-27B는 아직 Ollama 미지원 (llama.cpp 또는 vLLM 필요)
실전 3 — Continue.dev 연동 (VS Code)
Continue.dev는 VS Code 인라인 코딩 어시스턴트입니다. GitHub Copilot 대안으로 많이 씁니다.
# VS Code 확장 설치
# VS Code → Extensions → "Continue" 검색 → 설치
Continue.dev 설정 파일 (~/.continue/config.json):
{
"models": [
{
"title": "Qwen3.6-27B (Local)",
"provider": "openai",
"model": "Qwen/Qwen3.6-27B",
"apiBase": "http://localhost:8000/v1",
"apiKey": "EMPTY",
"completionOptions": {
"temperature": 1.0,
"top_p": 0.95,
"max_tokens": 8192
}
}
],
"tabAutocompleteModel": {
"title": "Qwen3.6-27B Autocomplete",
"provider": "openai",
"model": "Qwen/Qwen3.6-27B",
"apiBase": "http://localhost:8000/v1",
"apiKey": "EMPTY"
},
"contextProviders": [
{"name": "code"},
{"name": "docs"},
{"name": "diff"},
{"name": "terminal"},
{"name": "problems"},
{"name": "folder"},
{"name": "codebase"}
]
}
[Continue.dev 설정 포인트]
→ temperature: 1.0 — Thinking 모드 공식 권고값
→ tabAutocompleteModel: 자동완성은 같은 모델 재사용 (속도 느리면 35B-A3B로 교체)
→ contextProviders: codebase 포함 시 전체 레포 컨텍스트 활용 가능
→ VS Code 재시작 후 우측 패널에 Continue 아이콘 확인
실전 4 — Cursor 연동
Cursor는 별도 설정 없이 커스텀 모델을 붙일 수 있습니다.
// Cursor Settings → Models → Add Model
{
"name": "Qwen3.6-27B (Local)",
"provider": "openai-compatible",
"baseUrl": "http://localhost:8000/v1",
"apiKey": "EMPTY",
"model": "Qwen/Qwen3.6-27B"
}
Cursor Agent Mode 설정:
Cursor → Settings → Features → Agent
→ Model: Qwen3.6-27B (Local) 선택
→ Max tokens: 8192 (Thinking 모드 시 길어질 수 있음)
→ Temperature: 1.0
[Cursor 연동 주의사항]
→ Agent Mode에서 파일 편집/터미널 실행은 정상 작동
→ Thinking 모드 응답이 길어서 스트리밍 딜레이 있을 수 있음
→ 빠른 응답 원하면 35B-A3B로 교체 고려
→ Cursor 자체 모델 (Claude Sonnet 4.6)과 병행 사용 가능
실전 5 — Qwen Code 연동 (Claude Code 대안)
Qwen Code는 Alibaba가 만든 오픈소스 터미널 에이전트입니다. Claude Code와 동일한 UX에 로컬 모델을 붙일 수 있습니다.
# Qwen Code 설치
npm install -g @qwen-ai/qwen-code
# 또는
pip install qwen-code
로컬 Qwen3.6-27B 연동 설정 (~/.qwen/settings.json):
{
"modelProviders": {
"openai": [
{
"id": "qwen3.6-27b-local",
"name": "Qwen3.6-27B (Local vLLM)",
"baseUrl": "http://localhost:8000/v1",
"envKey": "LOCAL_API_KEY",
"description": "Local Qwen3.6-27B via vLLM"
}
]
},
"env": {
"LOCAL_API_KEY": "EMPTY"
},
"security": {
"auth": {
"selectedType": "openai"
}
},
"model": {
"name": "qwen3.6-27b-local"
}
}
# 실행
qwen
# 실행 후 /model 커맨드로 모델 전환 가능
# > /model qwen3.6-27b-local
[Qwen Code 특징]
→ Claude Code와 동일한 터미널 에이전트 UX
→ Skills, SubAgents 내장 — 복잡한 멀티스텝 작업 가능
→ VS Code, Zed, JetBrains IDE 연동 지원
→ ⚠️ Qwen OAuth 2026-04-15 종료 → API Key 방식으로 전환 필수
→ 로컬 서버 연동 시 API 비용 완전 0원
Thinking 모드 제어
Qwen3.6은 기본적으로 Thinking 모드가 켜져 있습니다. 코딩 에이전트에선 이게 장점이지만, 단순 자동완성에선 응답이 길어집니다.
from openai import OpenAI
client = OpenAI(
api_key="EMPTY",
base_url="http://localhost:8000/v1"
)
# Thinking 모드 ON (기본값, 복잡한 코딩 태스크)
response = client.chat.completions.create(
model="Qwen/Qwen3.6-27B",
messages=[{"role": "user", "content": "JWT 인증 시스템 설계해줘"}],
temperature=1.0, # Thinking 모드 공식 권고
top_p=0.95,
max_tokens=32768 # Thinking 출력은 길 수 있음
)
# Thinking 모드 OFF (빠른 응답, 단순 태스크)
response = client.chat.completions.create(
model="Qwen/Qwen3.6-27B",
messages=[
{
"role": "system",
"content": "/no_think" # Thinking 비활성화 시스템 프롬프트
},
{"role": "user", "content": "이 함수 이름 바꿔줘"}
],
temperature=0.7,
max_tokens=2048
)
[Thinking 모드 선택 기준]
→ ON: 복잡한 버그 분석, 아키텍처 설계, 멀티파일 리팩토링
→ OFF (/no_think): 단순 자동완성, 변수명 변경, 빠른 응답 필요 시
→ temperature=1.0: Thinking ON일 때 공식 권고값
→ temperature=0.7: Thinking OFF일 때 권고값
마무리
✅ 이럴 때 이 셋업 써라
→ API 비용 절감이 목표 (월 100M 토큰 이상)
→ 코드를 외부로 보낼 수 없는 보안 환경
→ 오프라인 개발 환경 필요
→ Claude/GPT 대비 성능 차이 감수 가능 (SWE-bench -3~7%p)
→ RTX 4090 이상 GPU 보유
❌ 이럴 때 클라우드 API가 나음
→ 절대 최고 성능 필요 (Claude Opus 4.7: SWE-bench 84.3%)
→ GPU 없거나 설정이 귀찮을 때
→ CUDA 13.2 환경 (버그 있음, 환경 구성 어려울 때)
→ Ollama로 빠르게 테스트하고 싶을 때 (Qwen3.6-27B 미지원)
관련 글:
Qwen3.6-27B 완전 분석 — 27B 모델이 397B MoE 능가
RTX 4090 하나로 프론티어급 코딩 에이전트를 돌릴 수 있는 시대가 왔습니다.[핵심 요약]→ 출시: 2026년 4월 22일, Alibaba Qwen Team→ 라이센스: Apache 2.0 (상업 사용 가능)→ 파라미터: 27B dense (이전 플래
cell-devlog.tistory.com
Qwen3.6-27B vs 35B-A3B — Dense vs MoE
같은 Qwen3.6 패밀리인데 아키텍처가 완전히 다릅니다. 뭘 골라야 할지 헷갈리는 분들을 위해 정리했습니다.[핵심 요약]→ 27B: Dense 모델 — 모든 파라미터 항상 활성, 성능 우선→ 35B-A3B: MoE 모델
cell-devlog.tistory.com
Continue.dev 완전 가이드 — GitHub Copilot 대신 쓰는 무료 오픈소스 AI 코딩 어시스턴트
GitHub Copilot 월 $10~19 내고 있나요Continue.dev는 똑같은 기능인데 무료예요. 오픈소스고, 어떤 LLM이든 연결 가능해요.GitHub Copilot:→ 월 $10 (개인) ~ $19 (Business)→ GPT/Claude 고정→ 코드가 GitHub 서버 통과
cell-devlog.tistory.com
'LLM' 카테고리의 다른 글
| OpenAI Privacy Filter 완전 가이드 — LLM에 개인정보 넣기 전에 로컬에서 자동 마스킹하는 법 (0) | 2026.04.24 |
|---|---|
| 오픈소스 코딩 모델 3파전 — Qwen3.6-27B vs Gemma 4 31B vs GLM-5.1 (0) | 2026.04.24 |
| Qwen3.6-27B vs 35B-A3B — Dense vs MoE (0) | 2026.04.24 |
| Qwen3.6-27B 완전 분석 — 27B 모델이 397B MoE 능가 (0) | 2026.04.24 |
| GPT-5.5 비싸다 — GPT-5.4 대비 2배 (0) | 2026.04.24 |