오픈소스 모델이 클로즈드 API에 정면으로 도전한 적이 있었나요? Kimi K2.6는 그냥 도전이 아닙니다. SWE-bench Pro 58.6%로 GPT-5.4를 넘고, Claude Opus 4.6와 0.6포인트 차이입니다. 가격은 80% 저렴하고, 가중치는 공개되어 있습니다.
그리고 Cerebras가 이 모델을 초당 981 토큰으로 돌렸습니다.
무슨 일이 일어나고 있는지 처음부터 정리합니다.
핵심 요약
→ 출시: 2026년 4월 20일, Moonshot AI (베이징), Modified MIT 라이선스
→ 아키텍처: MoE 1조 파라미터 / 토큰당 활성 32B — "1T 품질, 32B 비용"
→ 전문가 구성: 384개 전문가, 토큰마다 8개 선택 + 공유 전문가 1개
→ 컨텍스트: 256K (262,144 토큰), MLA(Multi-head Latent Attention) 적용
→ 멀티모달: MoonViT 400M 비전 인코더 — 텍스트/이미지/비디오 입력
→ Agent Swarm: 최대 300개 서브에이전트, 4,000 조율 스텝 (K2.5 대비 3배)
→ SWE-bench Verified 80.2% — Claude Opus 4.6(80.8%)과 0.6p 차이
→ SWE-bench Pro 58.6% — GPT-5.4(57.7%) 초과
→ Cerebras 파트너십: 초당 981 토큰, GPU 클라우드 대비 6.7배 빠름
→ 공식 API 가격: 입력 $0.50/1M, 출력 $2.00/1M (GPT-5.5 대비 ~80% 저렴)
→ 가중치: Hugging Face 공개, vLLM/SGLang/KTransformers 지원
실전 1 — 1조 파라미터인데 왜 32B처럼 빠른가
MoE 구조를 모르면 K2.6의 가격이 이상하게 느껴집니다. 왜 1조짜리가 이렇게 쌀까 — 아키텍처에 답이 있습니다.
MoE vs Dense 비교
Dense 모델 (예: GPT-4):
토큰 입력 → 전체 파라미터 활성 → 계산 비용 = 모델 크기에 비례
MoE 모델 (K2.6):
토큰 입력 → 라우터가 384개 전문가 중 8개만 선택 → 실제 계산 = 32B 수준
토큰 하나가 들어올 때 384개 전문가 중 8개만 깨어납니다. 나머지 376개는 자고 있습니다. 지식 용량은 1T지만, 계산 비용은 32B 덴스 모델과 비슷합니다.
K2.6 스펙 전체
항목 값
| 총 파라미터 | 1조 (1T) |
| 토큰당 활성 파라미터 | 32B |
| 레이어 수 | 61 (dense 레이어 1개 포함) |
| 전문가 수 | 384개 routed + 1개 shared |
| 토큰당 선택 전문가 | 8개 |
| Attention | MLA (Multi-head Latent Attention) |
| Attention Hidden Dim | 7,168 |
| MoE Hidden Dim (전문가당) | 2,048 |
| Attention Heads | 64개 |
| 어휘 크기 | 160K |
| 컨텍스트 길이 | 256K (262,144 토큰) |
| 활성화 함수 | SwiGLU |
| 비전 인코더 | MoonViT 400M |
| 학습 옵티마이저 | MuonClip (Moonshot 자체 개발) |
| 기본 양자화 | INT4 / FP4 지원 |
MLA가 왜 중요한가
일반 Multi-head Attention은 긴 컨텍스트일수록 KV 캐시 메모리가 폭발합니다. MLA는 K(Key)/V(Value)를 저차원 잠재 벡터로 압축해서 KV 캐시를 대폭 줄입니다. DeepSeek V3에서 먼저 쓴 방식이고, K2.6는 이를 256K 컨텍스트에 적용했습니다. 100K 입력 기준 TTFT(첫 토큰까지 시간)가 8~15초 수준으로 유지되는 이유입니다.
MuonClip: 왜 1T 학습이 가능했나
1조 파라미터 MoE 학습의 최대 난관은 Attention Explosion — 특정 레이어에서 Attention 스코어가 폭발적으로 커지는 현상입니다. Moonshot이 자체 개발한 MuonClip 옵티마이저가 이 스파이크를 억제하면서 안정적인 1T 스케일 학습을 가능하게 했습니다.
실전 2 — 벤치마크: 숫자의 실제 의미
코딩 에이전트 벤치마크 비교
벤치마크 K2.6 Claude Opus 4.6 GPT-5.4 GPT-5.5
| SWE-bench Verified | 80.2% | 80.8% | — | — |
| SWE-bench Pro | 58.6% | 53.4% | 57.7% | 58.6% |
| Terminal-Bench 2.0 | 66.7% | — | — | — |
| BrowseComp (단일 에이전트) | 83.2% | 82.7% | 82.7% | — |
| BrowseComp (Agent Swarm) | 86.3% | — | — | — |
| Toolathlon | 50.0% | — | 27.8% (K2.5 기준) | — |
| HLE-Full (도구 사용) | 54.0% | — | 52.1% | — |
| AIME 2026 | 96.4% | — | — | — |
| SWE-bench Multilingual | 76.7% | — | — | — |
어디서 앞서고 어디서 뒤지나
K2.6이 강한 영역:
✅ 실제 GitHub 이슈 해결 (SWE-bench Pro)
✅ 멀티언어 코딩 (SWE-bench Multilingual 76.7%)
✅ 웹 에이전트 (BrowseComp Agent Swarm)
✅ 도구 사용 (Toolathlon)
✅ 수학 추론 (AIME 2026 96.4%)
K2.6이 약한 영역:
❌ 순수 하드 추론 (HLE Full 점수 Claude 대비 뒤짐)
❌ 사실 정확도 (SimpleQA-Verified — Gemini 3.1 Pro 우세)
❌ 규제 환경 (중국산 모델 데이터 라우팅 컴플라이언스 이슈)
K2.5 → K2.6 실제 개선폭
항목 K2.5 K2.6 개선
| SWE-bench Pro | 50.7% | 58.6% | +7.9p |
| Terminal-Bench 2.0 | 50.8% | 66.7% | +15.9p |
| BrowseComp (Swarm) | 78.4% | 86.3% | +7.9p |
| Toolathlon | 27.8% | 50.0% | +22.2p |
| Kimi Code Bench (내부) | 57.4% | 68.2% | +10.8p |
| Agent Swarm 서브에이전트 | 100개 | 300개 | 3배 |
| 조율 스텝 | 1,500 | 4,000 | 2.7배 |
Toolathlon +22포인트는 특히 주목할 만합니다. 도구 호출 파이프라인에서 이전 세대 대비 질적으로 다른 수준입니다.
실전 3 — Agent Swarm: 300개 서브에이전트가 실제로 하는 일
K2.6의 가장 차별화된 기능입니다. 단순한 "에이전트 여러 개" 수준이 아닙니다.
구조
K2.6 오케스트레이터
↓ 작업 분석
↓ 도메인별 전문 서브에이전트 할당
├─ 서브에이전트 1~300 (병렬 실행)
│ 각 에이전트: 독립 컨텍스트 + 툴 접근
↓ 결과 수집 + 검증
↓ 통합 리포트
총 가능 스텝: 4,000개
K2.5 vs K2.6 Agent Swarm
항목 K2.5 K2.6
| 최대 서브에이전트 | 100개 | 300개 |
| 최대 조율 스텝 | 1,500 | 4,000 |
| BrowseComp 성능 | 78.4% | 86.3% |
실제 적합한 작업 유형
적합:
→ 대규모 레포지토리 전체 분석 (데드 코드, 취약점, 의존성)
→ 멀티파일 리팩토링 (수십만 줄 규모)
→ 병렬 웹 리서치 + 정보 통합
→ 여러 서비스를 동시에 수정하는 마이그레이션
부적합:
→ 단순 코드 완성
→ 단일 파일 버그 수정
→ 빠른 Q&A
Cerebras 블로그에서 직접 언급한 케이스: 에이전틱 코딩 워크로드(입력 10K 토큰 + 출력 500 토큰 기준)에서 공식 Kimi 엔드포인트가 163.7초 걸린 작업을 Cerebras에서 5.6초에 처리했습니다. Agent Swarm을 쓰는 워크로드에서 응답 속도가 이렇게 차이 나면 개발 리듬 자체가 달라집니다.
실전 4 — 라이선스와 상업적 사용 조건
오픈소스라고 다 같은 게 아닙니다. K2.6의 Modified MIT 조건을 정확히 알아야 합니다.
✅ 자유롭게 가능:
- 상업적 사용 (서비스 개발, API 판매 등)
- 수정 및 재배포
- 파인튜닝
- 온프레미스 배포
⚠️ 조건 발생 시:
- MAU 1억 초과 OR 월 매출 $2,000만 초과 시
→ Kimi 브랜드 표시 의무 발생
❌ 불가:
- 라이선스 조건 제거 후 재배포
스타트업이나 중소 서비스 기준으로는 사실상 완전 무료입니다. 대기업 서비스라면 브랜딩 조건 확인 필요.
실전 5 — 어디서 쓸 수 있나: 프로바이더 현황
공식 채널:
→ kimi.com (웹 채팅, 무료 플랜 + 유료 $19/월~)
→ Moonshot API (platform.moonshot.ai)
→ Hugging Face 가중치 (moonshotai/Kimi-K2.6)
서드파티 API:
→ DeepInfra: $0.50/$2.00 per 1M, TTFT 0.53s, 77+ TPS — 프로덕션 추천
→ Parasail: 최저가, 단 TTFT 2.61s
→ Cerebras: 981 TPS (엔터프라이즈 트라이얼)
→ Azure AI Foundry / NVIDIA NIM / GMI Cloud
셀프호스팅:
→ vLLM / SGLang / KTransformers 지원
→ 최소 8×H100 권장
→ 로컬: Mac Studio M3 Ultra 192GB+ (GGUF Q2_K_XL ~350GB)
마무리
항목 평가
| ✅ SWE-bench Pro GPT-5.4 초과, Claude 4.6와 0.6p 차이 | 오픈소스 코딩 에이전트 사실상 1위 |
| ✅ 1T 파라미터 → 32B 추론 비용 | 가격 경쟁력 구조적 우위 |
| ✅ Agent Swarm 300개/4,000스텝 | 대규모 자동화 실전 투입 가능 |
| ✅ Modified MIT — 사실상 상업 무제한 | 기업 도입 장벽 없음 |
| ✅ Cerebras 파트너십 → 981 TPS | 속도 병목 해소 (3편에서 상세) |
| ❌ 사실 정확도 (SimpleQA) 취약 | 지식 기반 QA 파이프라인 주의 |
| ❌ 중국산 데이터 라우팅 | 규제 업종 컴플라이언스 확인 필요 |
| ❌ AWS Bedrock/Azure OpenAI 미지원 | 클라우드 배포 경로 제한적 |
오픈소스 모델이 "일단 써보고 나중에 갈아타는" 대안이 아니라, 프로덕션 첫 선택지가 되는 시점이 왔습니다. K2.6이 그 기준점입니다.
2편에서는 실제 API 연동 코드, Thinking 모드 전환, 함수 호출, 프리픽스 캐싱 구현까지 다룹니다.
관련 글
- Kimi K2.6 완전분석 2편 — 1T MoE 아키텍처, Agent Swarm, 벤치마크
- Kimi K2.6 × Cerebras 3편 — 981 토큰/초의 원리: Wafer-Scale Engine이 GPU를 29배 앞서는 이유