Claude Code 쓰다가 매달 청구서 보고 한숨 쉬신 적 있으시면 이 글이 유용하실 겁니다. 6월 12일 출시된 Kimi K2.7-Code는 MCP 툴 사용 기준으로 Claude Opus 4.8을 앞섰고, 가격은 5분의 1입니다. 전환 비용은 base URL 한 줄입니다.
모델 스펙 — 실전에서 중요한 것만
K2.7-Code는 총 1조 파라미터 MoE 모델이고 토큰당 활성 파라미터는 32B입니다. 컨텍스트 윈도우 256K, Modified MIT 라이선스로 상업 배포가 가능합니다.
실전에서 스펙 숫자보다 중요한 게 두 가지입니다.
첫째, K2.6 대비 추론 토큰을 30% 덜 씁니다. 에이전트 루프에서 모델이 생각하는 시간이 길수록 토큰이 폭발합니다. 30% 절감은 비용에 직접 영향을 줍니다.
둘째, 멀티턴 추론 컨텍스트 유지입니다. 각 메시지마다 내부 추론 체인을 리셋하지 않고 이전 대화의 추론 맥락을 보존합니다. 에이전트가 긴 세션에서 앞서 내린 결정과 일관된 코드를 계속 생성해야 할 때 실질적인 차이가 납니다.
API 바로 쓰기 — 5분이면 됩니다
Kimi API는 OpenAI 호환 엔드포인트를 제공합니다. 모델 ID는 kimi-k2.7-code이고, thinking 모델 특성상 스트리밍이 권장됩니다.
from openai import OpenAI
client = OpenAI(
api_key="YOUR_MOONSHOT_API_KEY",
base_url="https://api.moonshot.cn/v1",
)
stream = client.chat.completions.create(
model="kimi-k2.7-code",
messages=[
{
"role": "system",
"content": "You are a careful senior software engineer."
},
{
"role": "user",
"content": "이 Python 함수의 엣지 케이스를 찾고 테스트 코드를 작성해줘."
}
],
stream=True
)
for chunk in stream:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="", flush=True)
API 키는 platform.moonshot.ai에서 발급합니다. 가격은 캐시 미스 입력 $0.95/백만 토큰, 캐시 히트 $0.19/백만 토큰, 출력 $4.00/백만 토큰입니다. Claude Opus 4.8($5/$25) 대비 출력 기준 6배 저렴합니다.
Claude Code에 Kimi K2.7-Code 붙이기
Moonshot 공식 가이드는 Claude Code, Cline, RooCode를 예시로 제공합니다. Claude Code 프레임워크는 그대로 두고 백엔드 모델만 Kimi로 교체하는 구조입니다.
Claude Code 설치 및 설정:
# Node.js 설치 (macOS/Linux)
curl -fsSL https://fnm.vercel.app/install | bash
fnm install 24.3.0 && fnm default 24.3.0 && fnm use 24.3.0
# Claude Code 설치
npm install -g @anthropic-ai/claude-code
환경변수로 Kimi 엔드포인트를 지정합니다:
export ANTHROPIC_BASE_URL=https://api.moonshot.cn/v1
export ANTHROPIC_API_KEY=YOUR_MOONSHOT_API_KEY
export CLAUDE_CODE_MODEL=kimi-k2.7-code
이 상태로 claude 명령을 실행하면 Claude Code UI 그대로 쓰면서 Kimi 모델이 뒤에서 응답합니다.
코드 수정 전에 컨텍스트부터 파악시키는 게 좋습니다:
Read package.json and the src directory.
Tell me the tech stack, entry files, route structure, and likely development commands.
Do not modify code yet.
이 확인 단계가 중요합니다 — 모델이 코드 수정 전에 컨텍스트를 제대로 읽었는지 먼저 확인하는 것입니다.
Cline / RooCode에서 설정하기
VS Code에서 Cline 또는 RooCode를 쓰신다면 설정이 더 간단합니다.
Cline:
- Cline 익스텐션 설치
- 설정 → API Provider를 OpenAI Compatible으로 변경
- Base URL: https://api.moonshot.cn/v1
- API Key: Moonshot 키 입력
- Model ID: kimi-k2.7-code
RooCode:
{
"roo-cline.apiProvider": "openai-compatible",
"roo-cline.openAiBaseUrl": "https://api.moonshot.cn/v1",
"roo-cline.openAiApiKey": "YOUR_MOONSHOT_API_KEY",
"roo-cline.openAiModelId": "kimi-k2.7-code"
}
RooCode는 테스트 실패 → 코드 수정 → 재시도 루프 특성상 콜이 빠르게 쌓입니다. 반드시 platform.moonshot.ai → 프로젝트 설정 → "Project Daily Spending Budget"에서 일일 지출 한도를 먼저 설정하세요.
셀프호스팅 설정
데이터 프라이버시 이슈거나 토큰 볼륨이 커서 API 비용이 부담된다면 셀프호스팅 옵션이 있습니다.
vLLM (멀티유저/고처리량):
pip install vllm "transformers>=4.57.1,<5.0.0"
python -m vllm.entrypoints.openai.api_server \
--model moonshotai/Kimi-K2.7-Code \
--tensor-parallel-size 16 \
--max-model-len 131072 \
--trust-remote-code
SGLang (멀티턴 에이전트/구조화 출력):
pip install sglang
python -m sglang.launch_server \
--model-path "moonshotai/Kimi-K2.7-Code" \
--host 0.0.0.0 \
--port 30000
SGLang은 RadixAttention으로 멀티턴 대화 간 KV 상태를 캐시해서 에이전트 루프 레이턴시를 크게 줄입니다. 에이전트 루프 중심이라면 vLLM보다 SGLang이 유리합니다.
서빙 후 엔드포인트는 http://localhost:30000/v1로 노출됩니다. 기존 Claude Code나 Cline 설정의 base URL만 이걸로 바꾸면 됩니다.
단, 현실적인 하드웨어 요구사항이 있습니다. K2.6 클래스 기준 최소 340GB 가중치에 350GB 이상의 RAM+VRAM 조합이 필요합니다. 공식 GGUF/Ollama 빌드는 아직 없습니다. 서버급 인프라 없이는 API 쓰는 게 현실적입니다.
어떤 팀에 맞나
상황 추천
| MCP 멀티툴 에이전트 개발 | K2.7-Code API |
| Claude Code 비용 절감 | K2.7-Code + Claude Code 프레임워크 |
| 데이터 외부 전송 불가 | 셀프호스팅 (350GB+ 필요) |
| 복잡한 리팩토링/정밀 코드 수술 | Claude Opus 4.8 유지 |
| 1M 토큰 대형 코드베이스 분석 | Claude Opus 4.8 (K2.7-Code는 256K 한계) |
✅ 결론
- base URL 한 줄로 Claude Code 프레임워크에 붙일 수 있습니다. 전환 비용이 거의 없습니다
- MCP 에이전트 워크플로우라면 지금 바로 테스트해볼 가치가 있습니다
- 출력 토큰 기준 Claude 대비 6배 저렴합니다. 볼륨이 큰 팀일수록 차이가 큽니다
- 독립 벤치마크 미존재, 컨텍스트 256K 제한, GGUF 미지원 — 이 세 가지는 감안하셔야 합니다
❌ 주의
- 일일 지출 한도 설정 필수 — 에이전트 루프는 토큰을 예상보다 빠르게 소모합니다
- Moonshot 발표 벤치마크는 자사 실행 결과 — 제3자 재현 전까지는 참고 수준으로 보세요
- 컨텍스트 256K — Claude의 1M 대비 절반 이하이므로 대형 코드베이스에서 한계가 있습니다
'AI 개발' 카테고리의 다른 글
| NVIDIA Vera Rubin 플랫폼 완전 분석 — 토큰 비용 10분의 1, AI 인프라 전쟁의 다음 라운드 (0) | 2026.06.15 |
|---|---|
| Kimi K2.6 에이전트 스웜 실전 가이드 — 혼자서 팀 수준 작업 처리하는 법 (0) | 2026.06.15 |
| Google Colab CLI 실전 가이드: 터미널에서 A100 GPU 1줄로 띄우는 법 (0) | 2026.06.11 |
| Grok Build 0.1 공개 베타: Claude Code·Codex와 코딩 에이전트 3파전 완전분석 (0) | 2026.06.08 |
| Google Colab CLI 출시: AI 에이전트가 원격 GPU·TPU에서 코드 실행하는 시대 (0) | 2026.06.08 |