Qwen3.6-27B로 로컬 코딩 에이전트 만들기 — Aider, Continue.dev, Cursor, Qwen Code 완전 연동 가이드

API 비용 0원, 코드 외부 전송 없음. RTX 4090 한 장으로 프론티어급 코딩 에이전트를 로컬에서 돌립니다.

[핵심 요약]
→ 이번 글에서 다루는 것:
→ 1단계: vLLM로 로컬 서버 띄우기
→ 2단계: Aider 연동 — CLI 코딩 에이전트
→ 3단계: Continue.dev 연동 — VS Code 인라인 어시스턴트
→ 4단계: Cursor 연동 — 에이전트 모드
→ 5단계: Qwen Code 연동 — Claude Code 대안
→ CUDA 13.2 버그, Thinking 모드, Ollama 미지원 주의사항 포함

왜 로컬인가

클라우드 API 방식:
→ Claude Opus 4.7: 입력 $5, 출력 $25 / 1M tokens
→ GPT-5.5: 입력 $5, 출력 $30 / 1M tokens
→ 코드가 외부 서버로 전송됨
→ GDPR, 사내 보안 규정 위반 가능

Qwen3.6-27B 로컬 방식:
→ 초기 모델 다운로드 후 추가 비용 0원
→ 코드가 외부로 나가지 않음
→ 인터넷 없이도 사용 가능
→ SWE-bench Verified 77.2% — Claude Opus 4.6 대비 3.6점 차

월 1억 토큰 이상 사용하거나, 보안상 코드를 외부로 보낼 수 없는 환경이라면 로컬 서빙이 경제적으로 압도적입니다.

실전 1 — 로컬 서버 띄우기 (vLLM)

모든 연동 툴의 기반이 되는 OpenAI 호환 API 서버를 먼저 띄웁니다.

# 1. vLLM 설치 (0.19.0 이상 필수)
pip install "vllm>=0.19.0" --torch-backend=auto

# 2. 모델 다운로드 (약 55.6GB BF16 / Q4 약 16.8GB)
# GGUF 양자화 버전 (llama.cpp용)
huggingface-cli download unsloth/Qwen3.6-27B-GGUF \
    Qwen3.6-27B-UD-Q4_K_XL.gguf

# 3. vLLM 서버 실행 (GPU 2장 기준)
vllm serve Qwen/Qwen3.6-27B \
    --port 8000 \
    --tensor-parallel-size 2 \
    --max-model-len 131072 \
    --reasoning-parser qwen3 \
    --enable-auto-tool-choice \
    --tool-call-parser qwen3_coder

# GPU 1장 (RTX 4090) 기준
vllm serve Qwen/Qwen3.6-27B \
    --port 8000 \
    --tensor-parallel-size 1 \
    --max-model-len 32768 \
    --reasoning-parser qwen3 \
    --enable-auto-tool-choice \
    --tool-call-parser qwen3_coder \
    --language-model-only  # 비전 인코더 제외 → VRAM 절약

[서버 설정 핵심 포인트]
→ --reasoning-parser qwen3: Thinking 모드 파싱 필수, 없으면 <think> 태그 그대로 노출
→ --tool-call-parser qwen3_coder: 에이전트 툴 호출 필수
→ --max-model-len: GPU 1장이면 32768~65536 권장, OOM 방지
→ --language-model-only: 비전 기능 안 쓸 때 VRAM 2~4GB 절약
→ CUDA 13.2 버그: 출력이 깨짐 → CUDA 13.1 또는 12.x 사용할 것

서버가 뜨면 http://localhost:8000/v1로 OpenAI 호환 API가 생성됩니다. 이후 모든 툴은 이 엔드포인트에 붙습니다.

실전 2 — Aider 연동

Aider는 CLI 기반 코딩 에이전트로, git 연동과 멀티파일 편집을 네이티브로 지원합니다.

# Aider 설치
pip install aider-chat

# Qwen3.6-27B 로컬 서버 연동
aider \
    --model openai/Qwen/Qwen3.6-27B \
    --openai-api-base http://localhost:8000/v1 \
    --openai-api-key EMPTY

# 프로젝트 디렉토리에서 실행
cd your-project
aider \
    --model openai/Qwen/Qwen3.6-27B \
    --openai-api-base http://localhost:8000/v1 \
    --openai-api-key EMPTY \
    --no-auto-commits  # 자동 커밋 끄기 (원할 경우)

Aider 실행 후 사용 예시:

# Aider 프롬프트에서
> FastAPI 인증 시스템에서 JWT 만료 처리 버그 고쳐줘

# Aider가 자동으로:
# 1. 관련 파일 분석
# 2. 수정 사항 제안
# 3. git diff 보여줌
# 4. 확인 후 자동 커밋

[Aider + Qwen3.6-27B 조합 포인트]
→ --model 앞에 openai/ 접두어 필수
→ --openai-api-key는 아무 값이나 넣어도 됨 (로컬 서버는 검증 안 함)
→ Thinking 모드: 서버에서 --reasoning-parser qwen3 설정하면 자동 적용
→ Ollama 미지원: Qwen3.6-27B는 아직 Ollama 미지원 (llama.cpp 또는 vLLM 필요)

실전 3 — Continue.dev 연동 (VS Code)

Continue.dev는 VS Code 인라인 코딩 어시스턴트입니다. GitHub Copilot 대안으로 많이 씁니다.

# VS Code 확장 설치
# VS Code → Extensions → "Continue" 검색 → 설치

Continue.dev 설정 파일 (~/.continue/config.json):

{
  "models": [
    {
      "title": "Qwen3.6-27B (Local)",
      "provider": "openai",
      "model": "Qwen/Qwen3.6-27B",
      "apiBase": "http://localhost:8000/v1",
      "apiKey": "EMPTY",
      "completionOptions": {
        "temperature": 1.0,
        "top_p": 0.95,
        "max_tokens": 8192
      }
    }
  ],
  "tabAutocompleteModel": {
    "title": "Qwen3.6-27B Autocomplete",
    "provider": "openai",
    "model": "Qwen/Qwen3.6-27B",
    "apiBase": "http://localhost:8000/v1",
    "apiKey": "EMPTY"
  },
  "contextProviders": [
    {"name": "code"},
    {"name": "docs"},
    {"name": "diff"},
    {"name": "terminal"},
    {"name": "problems"},
    {"name": "folder"},
    {"name": "codebase"}
  ]
}

[Continue.dev 설정 포인트]
→ temperature: 1.0 — Thinking 모드 공식 권고값
→ tabAutocompleteModel: 자동완성은 같은 모델 재사용 (속도 느리면 35B-A3B로 교체)
→ contextProviders: codebase 포함 시 전체 레포 컨텍스트 활용 가능
→ VS Code 재시작 후 우측 패널에 Continue 아이콘 확인

실전 4 — Cursor 연동

Cursor는 별도 설정 없이 커스텀 모델을 붙일 수 있습니다.

// Cursor Settings → Models → Add Model
{
  "name": "Qwen3.6-27B (Local)",
  "provider": "openai-compatible",
  "baseUrl": "http://localhost:8000/v1",
  "apiKey": "EMPTY",
  "model": "Qwen/Qwen3.6-27B"
}

Cursor Agent Mode 설정:

Cursor → Settings → Features → Agent
→ Model: Qwen3.6-27B (Local) 선택
→ Max tokens: 8192 (Thinking 모드 시 길어질 수 있음)
→ Temperature: 1.0

[Cursor 연동 주의사항]
→ Agent Mode에서 파일 편집/터미널 실행은 정상 작동
→ Thinking 모드 응답이 길어서 스트리밍 딜레이 있을 수 있음
→ 빠른 응답 원하면 35B-A3B로 교체 고려
→ Cursor 자체 모델 (Claude Sonnet 4.6)과 병행 사용 가능

실전 5 — Qwen Code 연동 (Claude Code 대안)

Qwen Code는 Alibaba가 만든 오픈소스 터미널 에이전트입니다. Claude Code와 동일한 UX에 로컬 모델을 붙일 수 있습니다.

# Qwen Code 설치
npm install -g @qwen-ai/qwen-code
# 또는
pip install qwen-code

로컬 Qwen3.6-27B 연동 설정 (~/.qwen/settings.json):

{
  "modelProviders": {
    "openai": [
      {
        "id": "qwen3.6-27b-local",
        "name": "Qwen3.6-27B (Local vLLM)",
        "baseUrl": "http://localhost:8000/v1",
        "envKey": "LOCAL_API_KEY",
        "description": "Local Qwen3.6-27B via vLLM"
      }
    ]
  },
  "env": {
    "LOCAL_API_KEY": "EMPTY"
  },
  "security": {
    "auth": {
      "selectedType": "openai"
    }
  },
  "model": {
    "name": "qwen3.6-27b-local"
  }
}

# 실행
qwen

# 실행 후 /model 커맨드로 모델 전환 가능
# > /model qwen3.6-27b-local

[Qwen Code 특징]
→ Claude Code와 동일한 터미널 에이전트 UX
→ Skills, SubAgents 내장 — 복잡한 멀티스텝 작업 가능
→ VS Code, Zed, JetBrains IDE 연동 지원
→ ⚠️ Qwen OAuth 2026-04-15 종료 → API Key 방식으로 전환 필수
→ 로컬 서버 연동 시 API 비용 완전 0원

Thinking 모드 제어

Qwen3.6은 기본적으로 Thinking 모드가 켜져 있습니다. 코딩 에이전트에선 이게 장점이지만, 단순 자동완성에선 응답이 길어집니다.

from openai import OpenAI

client = OpenAI(
    api_key="EMPTY",
    base_url="http://localhost:8000/v1"
)

# Thinking 모드 ON (기본값, 복잡한 코딩 태스크)
response = client.chat.completions.create(
    model="Qwen/Qwen3.6-27B",
    messages=[{"role": "user", "content": "JWT 인증 시스템 설계해줘"}],
    temperature=1.0,   # Thinking 모드 공식 권고
    top_p=0.95,
    max_tokens=32768   # Thinking 출력은 길 수 있음
)

# Thinking 모드 OFF (빠른 응답, 단순 태스크)
response = client.chat.completions.create(
    model="Qwen/Qwen3.6-27B",
    messages=[
        {
            "role": "system",
            "content": "/no_think"  # Thinking 비활성화 시스템 프롬프트
        },
        {"role": "user", "content": "이 함수 이름 바꿔줘"}
    ],
    temperature=0.7,
    max_tokens=2048
)

[Thinking 모드 선택 기준]
→ ON: 복잡한 버그 분석, 아키텍처 설계, 멀티파일 리팩토링
→ OFF (/no_think): 단순 자동완성, 변수명 변경, 빠른 응답 필요 시
→ temperature=1.0: Thinking ON일 때 공식 권고값
→ temperature=0.7: Thinking OFF일 때 권고값

마무리

✅ 이럴 때 이 셋업 써라
→ API 비용 절감이 목표 (월 100M 토큰 이상)
→ 코드를 외부로 보낼 수 없는 보안 환경
→ 오프라인 개발 환경 필요
→ Claude/GPT 대비 성능 차이 감수 가능 (SWE-bench -3~7%p)
→ RTX 4090 이상 GPU 보유

❌ 이럴 때 클라우드 API가 나음
→ 절대 최고 성능 필요 (Claude Opus 4.7: SWE-bench 84.3%)
→ GPU 없거나 설정이 귀찮을 때
→ CUDA 13.2 환경 (버그 있음, 환경 구성 어려울 때)
→ Ollama로 빠르게 테스트하고 싶을 때 (Qwen3.6-27B 미지원)

관련 글:

Qwen3.6-27B 완전 분석 — 27B 모델이 397B MoE 능가

RTX 4090 하나로 프론티어급 코딩 에이전트를 돌릴 수 있는 시대가 왔습니다.[핵심 요약]→ 출시: 2026년 4월 22일, Alibaba Qwen Team→ 라이센스: Apache 2.0 (상업 사용 가능)→ 파라미터: 27B dense (이전 플래

cell-devlog.tistory.com

Qwen3.6-27B vs 35B-A3B — Dense vs MoE

같은 Qwen3.6 패밀리인데 아키텍처가 완전히 다릅니다. 뭘 골라야 할지 헷갈리는 분들을 위해 정리했습니다.[핵심 요약]→ 27B: Dense 모델 — 모든 파라미터 항상 활성, 성능 우선→ 35B-A3B: MoE 모델

cell-devlog.tistory.com

Continue.dev 완전 가이드 — GitHub Copilot 대신 쓰는 무료 오픈소스 AI 코딩 어시스턴트

GitHub Copilot 월 $10~19 내고 있나요Continue.dev는 똑같은 기능인데 무료예요. 오픈소스고, 어떤 LLM이든 연결 가능해요.GitHub Copilot:→ 월 $10 (개인) ~ $19 (Business)→ GPT/Claude 고정→ 코드가 GitHub 서버 통과

cell-devlog.tistory.com

'LLM' 카테고리의 다른 글

OpenAI Privacy Filter 완전 가이드 — LLM에 개인정보 넣기 전에 로컬에서 자동 마스킹하는 법 (0)	2026.04.24
오픈소스 코딩 모델 3파전 — Qwen3.6-27B vs Gemma 4 31B vs GLM-5.1 (0)	2026.04.24
Qwen3.6-27B vs 35B-A3B — Dense vs MoE (0)	2026.04.24
Qwen3.6-27B 완전 분석 — 27B 모델이 397B MoE 능가 (0)	2026.04.24
GPT-5.5 비싸다 — GPT-5.4 대비 2배 (0)	2026.04.24

Cell DEVLOG

Qwen3.6-27B로 로컬 코딩 에이전트 만들기 — Aider, Continue.dev, Cursor, Qwen Code 완전 연동 가이드

왜 로컬인가

실전 1 — 로컬 서버 띄우기 (vLLM)

실전 2 — Aider 연동

실전 3 — Continue.dev 연동 (VS Code)

실전 4 — Cursor 연동

실전 5 — Qwen Code 연동 (Claude Code 대안)

Thinking 모드 제어

마무리

'LLM' 카테고리의 다른 글

티스토리툴바

Qwen3.6-27B로 로컬 코딩 에이전트 만들기 — Aider, Continue.dev, Cursor, Qwen Code 완전 연동 가이드

왜 로컬인가

실전 1 — 로컬 서버 띄우기 (vLLM)

실전 2 — Aider 연동

실전 3 — Continue.dev 연동 (VS Code)

실전 4 — Cursor 연동

실전 5 — Qwen Code 연동 (Claude Code 대안)

Thinking 모드 제어

마무리

'LLM' 카테고리의 다른 글

'LLM' Related Articles

티스토리툴바