4월 24일, GPT-5.5가 출시된 그날 오후. DeepSeek이 1.6조 파라미터 모델을 MIT 라이선스 오픈소스로 풀었습니다. 가격은 GPT-5.5의 1/34.
핵심 요약
→ DeepSeek V4 Pro, 2026년 4월 24일 출시 — MIT 라이선스 오픈소스, HuggingFace 가중치 공개
→ 구조: 1.6조 파라미터 MoE, 토큰당 490억 파라미터 활성화, 컨텍스트 1M 토큰
→ SWE-Bench Verified 80.6%, LiveCodeBench 93.5 — 코딩 벤치마크에서 GPT-5.5(58.6% SWE-Pro) 상회
→ 가격: 입력 $0.435/M, 출력 $0.87/M — Claude Opus 4.7 대비 출력 30배 저렴
→ 5월 22일 75% 할인 영구 확정 — 원래 기간 한정 프로모였다가 정식 가격으로 고정
→ GPT-5.5와 비교: 코딩·수학 벤치마크는 V4 Pro 우세, 장문 추론·환각률은 GPT-5.5 열세
→ NIST CAISI 독립 평가: "미국 프론티어 모델보다 8개월 뒤처짐" — 공식 벤치마크와 격차 있음
→ 약점: 프론트엔드 UI 품질 낮음, 타임아웃 발생(38개 태스크 중 9개 미완료), 한국어 자연스러움 낮음
→ 실무 포지셔닝: 고비용 Claude/GPT-5.5를 쓰던 고사용량 파이프라인 비용 절감용으로 최적
→ V4 Flash: 284B 파라미터, 입력 $0.14/M — 초저비용 대량 처리 최강
실전 1 — V4 Pro가 뭔지, 왜 충격적인가
DeepSeek은 항저우에 본사를 둔 중국 AI 연구소입니다. 2024년 R1 공개로 처음 이름을 알렸고, 2026년 V4 Pro로 다시 한번 업계를 뒤흔들었어요.
충격 포인트가 가격이 아닌 이유:
가격만 보면 "싸구려 중국산"이라고 넘길 수 있습니다. 진짜 충격은 그 가격에 그 성능이 나온다는 것입니다.
항목 DeepSeek V4 Pro Claude Opus 4.7 GPT-5.5
| 출력 가격 | $0.87/M | $25/M | $30/M |
| 입력 가격 | $0.435/M | $5/M | $5/M |
| 라이선스 | MIT (오픈소스) | 독점 | 독점 |
| 컨텍스트 | 1M 토큰 | 200K | 1M |
| SWE-Bench Verified | 80.6% | 87.6% | 미공개 |
| LiveCodeBench | 93.5 | 미공개 | 미공개 |
→ 출력 기준 Claude Opus 4.7보다 30배, GPT-5.5보다 34배 저렴
→ 그러면서 SWE-Bench Verified에서 Claude Opus 4.7(87.6%)과 7%p 차이
실전 2 — 아키텍처 뜯어보기
V4 Pro의 가격 대비 성능은 우연이 아닙니다. 아키텍처 혁신이 배경입니다.
MoE 구조:
전체 파라미터: 1.6조
토큰당 활성화: 490억 (전체의 약 3%)
→ dense 490B 모델 수준 성능을
훨씬 낮은 연산 비용으로 달성
하이브리드 어텐션 (CSA + HCA):
→ CSA(Compressed Sparse Attention): 상위 1,024개 항목만 선택적 처리 — FLOPs를 V3.2 대비 27% 수준으로 절감
→ HCA(Heavily Compressed Attention): 전체 컨텍스트의 글로벌 맥락을 저비용으로 유지
→ KV 캐시를 V3.2 대비 10% 수준으로 압축 — 1M 토큰 컨텍스트를 현실적 비용으로 운영 가능하게 만드는 핵심
Muon 옵티마이저:
→ 기존 AdamW 대신 Muon 옵티마이저 도입
→ 조 단위 파라미터 스케일에서 더 빠른 수렴, 더 안정적인 학습
→ AdamW는 임베딩·헤드·RMSNorm에만 유지
FP4 양자화 인식 훈련:
→ MoE 전문가 가중치를 사전 훈련 단계부터 FP4로 훈련
→ 사후 양자화가 아니라 처음부터 FP4로 키워서 품질 손실 최소화
→ FP8 혼합 및 FP4+FP8 혼합 정밀도로 배포 가능
실전 3 — 벤치마크: 어디서 이기고, 어디서 지는가
V4 Pro가 이기는 영역:
벤치마크 V4 Pro Claude Opus 4.7 GPT-5.5
| LiveCodeBench | 93.5 | 미공개 | 미공개 |
| SWE-Bench Verified | 80.6% | 87.6% | 미공개 |
| SWE-Bench Pro | 55.4% | 64.3% | 58.6% |
| AIME 2026 (수학) | 강함 | 강함 | 강함 |
| 멀티스텝 금융 분석 | 10/10 (유일) | 8.87/10 | 미공개 |
V4 Pro가 지는 영역:
→ SWE-Bench Pro: Claude Opus 4.7(64.3%) > V4 Pro(55.4%) — 9%p 차이
→ 어려운 추론 (HLE): Opus 4.7이 54.7% vs V4 Pro 낮음
→ 장문 컨텍스트 리콜: GPT-5.5 MRCRv2 87.5% > V4 Pro
→ 프론트엔드 UI 코드 품질: HTML/CSS 기능은 맞지만 시각적 완성도 낮음
→ 타임아웃: 복잡한 코딩·추론 태스크에서 38개 중 9개 미완료 발생 사례
NIST 독립 평가 — 중요한 경고:
미국 NIST CAISI의 독립 평가에 따르면, V4 Pro는 약 8개월 전 출시된 GPT-5 수준에 해당하며, 미국 프론티어 모델보다 8개월 정도 뒤처져 있습니다. 단, 비용 효율성은 비슷한 성능 수준의 미국 모델(GPT-5.4 mini)보다 7개 벤치마크 중 5개에서 더 높았습니다.
→ DeepSeek 자체 공개 벤치마크와 독립 평가 간 격차가 있음 — 맹신 금물
실전 4 — GPT-5.5와 직접 비교
항목 DeepSeek V4 Pro GPT-5.5
| 출력 가격 | $0.87/M | $30/M (34배 비쌈) |
| 라이선스 | MIT 오픈소스 | 독점 |
| 컨텍스트 | 1M 토큰 | 1M 토큰 |
| 코딩 | LiveCodeBench 93.5 | SWE-Pro 58.6% |
| 장문 추론 | 낮음 | MRCRv2 87.5% (강함) |
| 환각률 | 낮음 | 86% (높음, 주의 필요) |
| 자체 호스팅 | 가능 (HuggingFace) | 불가 |
| 기업 데이터 보안 | 자체 호스팅 시 완전 격리 | API 전송 필수 |
GPT-5.5 쓸 상황:
→ 128K~1M 범위 장문 컨텍스트 리콜이 핵심인 태스크
→ OpenAI 생태계(Codex, ChatGPT Enterprise) 기반 이미 구축된 팀
→ 속도가 최우선인 경우 (Cerebras 기반 1,000 tok/sec)
V4 Pro 쓸 상황:
→ 고사용량 파이프라인 — Claude/GPT-5.5 대비 30배 비용 절감
→ 자체 호스팅 필요 (의료·금융·공공 데이터 외부 전송 불가)
→ 오픈소스 커스터마이징 필요 (파인튜닝, 도메인 특화)
→ RAG, 배치 처리, 코드 분석 등 비용 민감한 반복 작업
실전 5 — V4 Flash: 잊혀진 진짜 게임 체인저
V4 Pro만 화제가 됐지만 V4 Flash가 실무에서 더 유용할 수 있습니다.
DeepSeek V4 Flash 스펙:
- 파라미터: 284B 전체, 13B 활성화
- 컨텍스트: 1M 토큰
- 가격: 입력 $0.14/M, 출력 $0.28/M
- 라이선스: MIT
활용 시나리오:
- 대규모 문서 배치 처리 (RAG 파이프라인)
- 코드 리뷰 자동화 (고사용량)
- 실시간 응답이 필요한 프로덕션 서비스
- 임베딩·분류 대신 LLM 추론이 필요한 태스크
비용 비교 (태스크당):
모델 입력 $0.14/M 기준 100만 토큰 처리 비용
| V4 Flash | $0.14 |
| V4 Pro | $0.435 |
| Claude Haiku 4.5 | $0.80 |
| Claude Sonnet 4.6 | $3.00 |
| Claude Opus 4.8 | $5.00 |
→ Haiku 4.5보다 5배 이상 저렴하면서 지능 지수에서 경쟁 가능
실전 6 — 자체 호스팅 방법
오픈소스이기 때문에 직접 돌릴 수 있습니다. 다만 V4 Pro는 스펙이 상당합니다.
# OpenRouter로 V4 Pro API 호출 (가장 간단한 방법)
from openai import OpenAI
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="YOUR_OPENROUTER_KEY"
)
response = client.chat.completions.create(
model="deepseek/deepseek-v4-pro",
messages=[{"role": "user", "content": "이 코드베이스 버그 찾아줘"}],
max_tokens=4096
)
자체 호스팅 최소 요구 사항 (V4 Pro FP8 기준):
구성 스펙
| GPU | H100 80GB × 32개 이상 (권장) |
| 메모리 | 최소 2TB GPU 메모리 |
| 현실적 방법 | Fireworks AI / Together AI / DeepInfra 등 관리형 서비스 |
→ V4 Pro 직접 호스팅은 대형 기업·연구소 수준 — 일반 팀은 DeepInfra·Together AI·Fireworks AI 경유 권장
V4 Flash 자체 호스팅은 현실적:
→ 284B 모델 — A100 80GB × 4~8개 정도로 FP8 운영 가능
→ 금융·의료 기업에서 데이터 외부 전송 없이 로컬 LLM 운영에 활용 사례 급증
✅ V4 Pro 쓸 만한 경우 / ❌ 이건 다른 모델이 낫다
✅ ❌
| 월 LLM 비용이 $1,000 이상인 파이프라인 — 비용 30배 절감 가능 | 복잡한 에이전트 추론이 핵심 — Claude Code가 여전히 우세 |
| 자체 호스팅 필수 (데이터 보안) | 프론트엔드 UI 코드가 시각적으로 중요한 프로젝트 |
| 코드 분석·리뷰 대량 처리 | 한국어 자연스러움이 중요한 서비스 — Claude 계열이 낫다 |
| 1M 컨텍스트 + 오픈소스가 동시에 필요한 경우 | 프로덕션 배포 전 독립 평가 없이 쓰는 것 — NIST 격차 있음 |
'LLM' 카테고리의 다른 글
| MiniMax M3 완전 분석 — GPT-5.5 제쳤다는 중국 오픈소스, 벤치마크·가격·보안 총정리 (0) | 2026.06.04 |
|---|---|
| Microsoft Foundry Local 완전 가이드 — 클라우드 없이 앱에 LLM 내장하는 법 (0) | 2026.06.04 |
| MAI-Thinking-1 완전 분석 — Microsoft 첫 추론 모델, Claude Opus 4.6과 비교하면 어떤가 (0) | 2026.06.04 |
| IBM Granite 4.1 완전 분석 2편 — Vision·Speech·Guardian·Embedding 실전, 엔터프라이즈 선택 기준 (0) | 2026.06.02 |
| IBM Granite 4.1 완전 분석 1편 — 8B 모델이 32B MoE를 이긴 이유 (0) | 2026.06.02 |