출력 토큰 가격이 2배 올랐습니다. 에이전트 돌리는 개발자라면 이번 달 청구서가 달라집니다.
[핵심 요약]
→ GPT-5.5 가격: 입력 $5/1M, 출력 $30/1M
→ GPT-5.4 대비: 입력 2배, 출력 2배 인상
→ Claude Opus 4.7 대비: 입력 동일, 출력 20% 비쌈
→ 함정: Claude Opus 4.7 새 토크나이저로 실질 비용 20~35% 추가
→ 결론: 워크로드별로 모델 라우팅 전략이 필수
얼마나 올랐나
GPT-5.4가 나온 지 6주 만에 GPT-5.5가 나왔습니다. 성능은 올랐는데 가격도 같이 올랐습니다.
GPT-5.4 (6주 전):
→ 입력: $2.50 / 1M tokens
→ 출력: $15.00 / 1M tokens
→ 272K 이상 컨텍스트: 입력 $5.00으로 2배 (함정)
GPT-5.5 (오늘):
→ 입력: $5.00 / 1M tokens
→ 출력: $30.00 / 1M tokens
→ Pro: $30 / $180 per 1M tokens (에이전트 최고 성능 티어)
입력은 2배, 출력도 2배입니다. 기존에 GPT-5.4로 월 $100 쓰던 팀이 같은 워크로드에 GPT-5.5를 그대로 쓰면 이론상 $200이 됩니다.
실전 1 — 주요 모델 가격 한눈에 비교
지금 시점 주요 프론티어 모델 가격을 정리했습니다.
# 2026년 4월 기준 주요 모델 가격표
# 단위: USD per 1M tokens
models = {
"GPT-5.5": {"input": 5.00, "output": 30.00},
"GPT-5.5 Pro": {"input": 30.00, "output": 180.00},
"GPT-5.4": {"input": 2.50, "output": 15.00},
"Claude Opus 4.7": {"input": 5.00, "output": 25.00}, # 200K 이상 2배 surcharge
"Claude Sonnet 4.6":{"input": 3.00, "output": 15.00},
"Claude Haiku 4.5": {"input": 0.80, "output": 4.00},
"Gemini 3.1 Pro": {"input": 2.00, "output": 12.00},
"Gemini 3.1 Flash": {"input": 0.50, "output": 3.00},
}
[비교 포인트]
→ 입력 최저가: Gemini 3.1 Flash ($0.50)
→ 출력 최저가: Gemini 3.1 Flash ($3.00)
→ 프론티어 중 최저가: Gemini 3.1 Pro ($2/$12)
→ GPT-5.5 vs Opus 4.7: 입력 동일, 출력은 GPT-5.5가 20% 비쌈
→ 가성비 코딩 모델: Claude Sonnet 4.6 ($3/$15)
실전 2 — 월 사용량별 실제 비용 계산
월 1,000만 input + 200만 output 토큰 기준 (중간 규모 에이전트 서비스)
# 월 비용 시뮬레이션
# 가정: 월 10M input tokens + 2M output tokens
def calc_cost(input_price, output_price,
input_tokens=10_000_000,
output_tokens=2_000_000):
return (input_tokens / 1_000_000 * input_price +
output_tokens / 1_000_000 * output_price)
costs = {
"GPT-5.5": calc_cost(5.00, 30.00), # $110.00
"GPT-5.4": calc_cost(2.50, 15.00), # $55.00
"Claude Opus 4.7": calc_cost(5.00, 25.00), # $100.00
"Claude Sonnet 4.6": calc_cost(3.00, 15.00), # $60.00
"Gemini 3.1 Pro": calc_cost(2.00, 12.00), # $44.00
"Gemini 3.1 Flash": calc_cost(0.50, 3.00), # $11.00
}
for model, cost in sorted(costs.items(), key=lambda x: x[1]):
print(f"{model}: ${cost:.2f}/월")
# Gemini 3.1 Flash: $11.00
# Gemini 3.1 Pro: $44.00
# GPT-5.4: $55.00
# Claude Sonnet 4.6: $60.00
# Claude Opus 4.7: $100.00
# GPT-5.5: $110.00
[비용 핵심 정리]
→ GPT-5.5는 GPT-5.4 대비 2배
→ GPT-5.5는 Gemini 3.1 Pro 대비 2.5배
→ GPT-5.5는 Claude Sonnet 4.6 대비 1.8배
→ 같은 프론티어 급 Opus 4.7 대비 10% 비쌈
실전 3 — 숨겨진 비용 함정 2가지
가격표 숫자만 보면 틀립니다. 실제 청구서는 다를 수 있습니다.
함정 1: Claude Opus 4.7 새 토크나이저
# Opus 4.7은 새 토크나이저 적용
# 동일한 텍스트가 Opus 4.6보다 1.0~1.35배 더 많은 토큰으로 처리됨
# 예시: 10,000자 한국어 텍스트
opus_4_6_tokens = 5000 # 기존
opus_4_7_tokens = 6750 # 최대 35% 증가 가능
# 가격표는 $5/$25로 동일해도
# 실질 비용은 최대 35% 더 나올 수 있음
# → 반드시 실제 워크로드로 직접 측정 필요
함정 2: GPT-5.4 장문 컨텍스트 2배 과금
# GPT-5.4: 272K 이상 컨텍스트 사용 시 입력 가격 2배
# $2.50 → $5.00 으로 자동 전환
# 에이전트에 긴 컨텍스트 넣는 경우
context_tokens = 300_000 # 272K 초과
# 일반 구간 기준 예상 비용
expected = 300_000 / 1_000_000 * 2.50 # $0.75
# 실제 청구 비용 (272K 초과 구간은 $5.00)
actual = (272_000 / 1_000_000 * 2.50 +
28_000 / 1_000_000 * 5.00) # $0.82
# GPT-5.5는 이 구조를 그대로 유지하는지 공식 문서 확인 필수
[숨겨진 비용 체크리스트]
→ Opus 4.7 쓸 때: 새 토크나이저로 실제 토큰 수 재측정
→ GPT-5.4 쓸 때: 272K 이상 컨텍스트 여부 확인
→ GPT-5.5 쓸 때: API 아직 롤아웃 중, 정확한 tier 구조 공식 문서 확인
→ 어느 모델이든: 실제 워크로드로 48시간 내 직접 테스트
실전 4 — 워크로드별 모델 라우팅 전략
GPT-5.5가 무조건 최고 성능은 아닙니다. 벤치마크 기준으로 용도가 나뉩니다.
GPT-5.5가 앞서는 구간:
→ Terminal-Bench 2.0: 82.7% (Opus 4.7: 69.4%)
→ OSWorld-Verified: 78.7% (Opus 4.7: 78.0%)
→ BrowseComp, CyberGym
→ 200K 이상 장문 컨텍스트 (Opus 4.7 surcharge 없음)
Claude Opus 4.7이 앞서는 구간:
→ SWE-Bench Pro: 64.3% (GPT-5.5: 58.6%)
→ MCP-Atlas: 79.1% (GPT-5.5: 75.3%)
→ GPQA, HLE (추론 중심 태스크)
→ 응답 속도: TTFT 0.5s (GPT-5.5: ~3s)
# 실무 모델 라우팅 예시
def select_model(task_type, context_tokens, budget_sensitive):
# 비용 우선 → 경량 모델로
if budget_sensitive:
if context_tokens < 50_000:
return "claude-sonnet-4-6" # $3/$15, 빠름
else:
return "gemini-3.1-pro" # $2/$12, 장문 강점
# 성능 우선 → 태스크별 분기
if task_type == "terminal_agent":
return "gpt-5.5" # Terminal-Bench 1위
if task_type in ["code_review", "refactor", "mcp"]:
return "claude-opus-4.7" # SWE-Bench Pro, MCP-Atlas 1위
if task_type == "long_context" and context_tokens > 200_000:
return "gpt-5.5" # Opus 4.7 surcharge 없음
# 기본값
return "claude-sonnet-4-6" # 가성비 최강
[라우팅 원칙 정리]
→ 터미널/쉘/에이전트 자율 실행 → GPT-5.5
→ 코드리뷰/리팩토링/MCP 파이프라인 → Claude Opus 4.7
→ 200K 이상 장문 컨텍스트 → GPT-5.5 (surcharge 없음)
→ 일반 코딩/RAG/빠른 응답 → Claude Sonnet 4.6
→ 비용 최우선 → Gemini 3.1 Flash
마무리
✅ GPT-5.5 써야 할 때
→ 터미널 에이전트, 자율 쉘 실행 워크로드
→ 200K 이상 컨텍스트를 자주 쓰는 파이프라인
→ 이미 ChatGPT 비즈니스/엔터프라이즈 구독 중
→ CyberGym, BrowseComp 성능이 중요한 서비스
❌ GPT-5.5 안 써도 될 때
→ 코드리뷰·PR 자동화 → Claude Opus 4.7이 SWE-Bench Pro에서 앞섬
→ MCP 기반 파이프라인 → Opus 4.7 MCP-Atlas 1위
→ 빠른 TTFT 필요한 인터랙티브 서비스 → Opus 4.7 0.5s vs GPT-5.5 3s
→ 비용 민감한 사이드 프로젝트 → Sonnet 4.6 또는 Gemini Flash
관련 글
GPT-5.5 출시 완전 분석 — Claude Opus 4.7에 일주일 만에 날린 OpenAI의 반격
6주 만에 새 모델이 나왔습니다. AI 코딩 툴 전쟁, 이제 속도전입니다.[핵심 요약]→ GPT-5.5: 2026년 4월 23일 출시, GPT-5.4 이후 6주 만→ 핵심: 에이전트 코딩 특화, 다단계 작업 자율 처리→ 포지셔닝:
cell-devlog.tistory.com
Opus 4.7 에이전트 비용 제어 실전 — effort + Task Budget 완전 가이드
에이전트를 Opus 4.7로 돌리면 비용이 예측 불가예요.왜 예측이 안 되냐:→ 에이전트 루프: 생각 + 툴 호출 + 툴 결과 + 출력이 쌓임→ xhigh 기본값: 더 많이 생각함→ 새 토크나이저: 같은 텍스트도
cell-devlog.tistory.com
LLM 모델 라우팅 완전 가이드 — 분류기, 캐스케이딩, 시맨틱 캐시 실전
LLM을 프로덕션에 올리면 첫 달 청구서가 이렇게 나와요.예상: $300/월실제: $2,400/월원인 분석해보면 이래요.고객: "배송 얼마나 걸려요?"→ Claude Opus 4.6 응답 ($0.015/1K토큰)고객: "안녕하세요"→ Claud
cell-devlog.tistory.com
SLM 실전 가이드 — Gemma 4, Qwen3.5, Phi-4로 API 비용 95% 줄이는 법
Claude API 쓰다 보면 월말에 이런 청구서가 날아와요.API 비용: $3,200예산: $500원인은 단순해요. 모든 요청에 수천억 파라미터 모델을 쓰고 있어서예요.고객이 "배송 얼마나 걸려요?"라고 물어봐도 Cl
cell-devlog.tistory.com
'LLM' 카테고리의 다른 글
| Qwen3.6-27B vs 35B-A3B — Dense vs MoE (0) | 2026.04.24 |
|---|---|
| Qwen3.6-27B 완전 분석 — 27B 모델이 397B MoE 능가 (0) | 2026.04.24 |
| GPT-5.5 출시 완전 분석 — Claude Opus 4.7에 일주일 만에 날린 OpenAI의 반격 (0) | 2026.04.24 |
| OpenRouter 완전 가이드 — API 키 하나로 GPT, Claude, Gemini, Llama 200개+ 모델 전부 쓰기 (0) | 2026.04.23 |
| Gemma 4 파인튜닝 Unsloth로 30분에 끝내기 — API 비용 0원, 도메인 특화 모델 (0) | 2026.04.21 |