본문 바로가기

LLM

GPT-5.5 비싸다 — GPT-5.4 대비 2배

반응형

출력 토큰 가격이 2배 올랐습니다. 에이전트 돌리는 개발자라면 이번 달 청구서가 달라집니다.

[핵심 요약]
→ GPT-5.5 가격: 입력 $5/1M, 출력 $30/1M
→ GPT-5.4 대비: 입력 2배, 출력 2배 인상
→ Claude Opus 4.7 대비: 입력 동일, 출력 20% 비쌈
→ 함정: Claude Opus 4.7 새 토크나이저로 실질 비용 20~35% 추가
→ 결론: 워크로드별로 모델 라우팅 전략이 필수

얼마나 올랐나

GPT-5.4가 나온 지 6주 만에 GPT-5.5가 나왔습니다. 성능은 올랐는데 가격도 같이 올랐습니다.

GPT-5.4 (6주 전):
→ 입력: $2.50 / 1M tokens
→ 출력: $15.00 / 1M tokens
→ 272K 이상 컨텍스트: 입력 $5.00으로 2배 (함정)

GPT-5.5 (오늘):
→ 입력: $5.00 / 1M tokens
→ 출력: $30.00 / 1M tokens
→ Pro: $30 / $180 per 1M tokens (에이전트 최고 성능 티어)

입력은 2배, 출력도 2배입니다. 기존에 GPT-5.4로 월 $100 쓰던 팀이 같은 워크로드에 GPT-5.5를 그대로 쓰면 이론상 $200이 됩니다.


실전 1 — 주요 모델 가격 한눈에 비교

지금 시점 주요 프론티어 모델 가격을 정리했습니다.

# 2026년 4월 기준 주요 모델 가격표
# 단위: USD per 1M tokens

models = {
    "GPT-5.5":          {"input": 5.00, "output": 30.00},
    "GPT-5.5 Pro":      {"input": 30.00, "output": 180.00},
    "GPT-5.4":          {"input": 2.50, "output": 15.00},
    "Claude Opus 4.7":  {"input": 5.00, "output": 25.00},  # 200K 이상 2배 surcharge
    "Claude Sonnet 4.6":{"input": 3.00, "output": 15.00},
    "Claude Haiku 4.5": {"input": 0.80, "output": 4.00},
    "Gemini 3.1 Pro":   {"input": 2.00, "output": 12.00},
    "Gemini 3.1 Flash": {"input": 0.50, "output": 3.00},
}
[비교 포인트]
→ 입력 최저가: Gemini 3.1 Flash ($0.50)
→ 출력 최저가: Gemini 3.1 Flash ($3.00)
→ 프론티어 중 최저가: Gemini 3.1 Pro ($2/$12)
→ GPT-5.5 vs Opus 4.7: 입력 동일, 출력은 GPT-5.5가 20% 비쌈
→ 가성비 코딩 모델: Claude Sonnet 4.6 ($3/$15)

실전 2 — 월 사용량별 실제 비용 계산

월 1,000만 input + 200만 output 토큰 기준 (중간 규모 에이전트 서비스)

# 월 비용 시뮬레이션
# 가정: 월 10M input tokens + 2M output tokens

def calc_cost(input_price, output_price,
              input_tokens=10_000_000,
              output_tokens=2_000_000):
    return (input_tokens / 1_000_000 * input_price +
            output_tokens / 1_000_000 * output_price)

costs = {
    "GPT-5.5":           calc_cost(5.00, 30.00),   # $110.00
    "GPT-5.4":           calc_cost(2.50, 15.00),   # $55.00
    "Claude Opus 4.7":   calc_cost(5.00, 25.00),   # $100.00
    "Claude Sonnet 4.6": calc_cost(3.00, 15.00),   # $60.00
    "Gemini 3.1 Pro":    calc_cost(2.00, 12.00),   # $44.00
    "Gemini 3.1 Flash":  calc_cost(0.50, 3.00),    # $11.00
}

for model, cost in sorted(costs.items(), key=lambda x: x[1]):
    print(f"{model}: ${cost:.2f}/월")

# Gemini 3.1 Flash:   $11.00
# Gemini 3.1 Pro:     $44.00
# GPT-5.4:            $55.00
# Claude Sonnet 4.6:  $60.00
# Claude Opus 4.7:    $100.00
# GPT-5.5:            $110.00
[비용 핵심 정리]
→ GPT-5.5는 GPT-5.4 대비 2배
→ GPT-5.5는 Gemini 3.1 Pro 대비 2.5배
→ GPT-5.5는 Claude Sonnet 4.6 대비 1.8배
→ 같은 프론티어 급 Opus 4.7 대비 10% 비쌈

실전 3 — 숨겨진 비용 함정 2가지

가격표 숫자만 보면 틀립니다. 실제 청구서는 다를 수 있습니다.

함정 1: Claude Opus 4.7 새 토크나이저

# Opus 4.7은 새 토크나이저 적용
# 동일한 텍스트가 Opus 4.6보다 1.0~1.35배 더 많은 토큰으로 처리됨

# 예시: 10,000자 한국어 텍스트
opus_4_6_tokens = 5000   # 기존
opus_4_7_tokens = 6750   # 최대 35% 증가 가능

# 가격표는 $5/$25로 동일해도
# 실질 비용은 최대 35% 더 나올 수 있음
# → 반드시 실제 워크로드로 직접 측정 필요

함정 2: GPT-5.4 장문 컨텍스트 2배 과금

# GPT-5.4: 272K 이상 컨텍스트 사용 시 입력 가격 2배
# $2.50 → $5.00 으로 자동 전환

# 에이전트에 긴 컨텍스트 넣는 경우
context_tokens = 300_000  # 272K 초과

# 일반 구간 기준 예상 비용
expected = 300_000 / 1_000_000 * 2.50  # $0.75

# 실제 청구 비용 (272K 초과 구간은 $5.00)
actual = (272_000 / 1_000_000 * 2.50 +
          28_000 / 1_000_000 * 5.00)  # $0.82

# GPT-5.5는 이 구조를 그대로 유지하는지 공식 문서 확인 필수
[숨겨진 비용 체크리스트]
→ Opus 4.7 쓸 때: 새 토크나이저로 실제 토큰 수 재측정
→ GPT-5.4 쓸 때: 272K 이상 컨텍스트 여부 확인
→ GPT-5.5 쓸 때: API 아직 롤아웃 중, 정확한 tier 구조 공식 문서 확인
→ 어느 모델이든: 실제 워크로드로 48시간 내 직접 테스트

실전 4 — 워크로드별 모델 라우팅 전략

GPT-5.5가 무조건 최고 성능은 아닙니다. 벤치마크 기준으로 용도가 나뉩니다.

GPT-5.5가 앞서는 구간:
→ Terminal-Bench 2.0: 82.7% (Opus 4.7: 69.4%)
→ OSWorld-Verified: 78.7% (Opus 4.7: 78.0%)
→ BrowseComp, CyberGym
→ 200K 이상 장문 컨텍스트 (Opus 4.7 surcharge 없음)

Claude Opus 4.7이 앞서는 구간:
→ SWE-Bench Pro: 64.3% (GPT-5.5: 58.6%)
→ MCP-Atlas: 79.1% (GPT-5.5: 75.3%)
→ GPQA, HLE (추론 중심 태스크)
→ 응답 속도: TTFT 0.5s (GPT-5.5: ~3s)
# 실무 모델 라우팅 예시
def select_model(task_type, context_tokens, budget_sensitive):

    # 비용 우선 → 경량 모델로
    if budget_sensitive:
        if context_tokens < 50_000:
            return "claude-sonnet-4-6"   # $3/$15, 빠름
        else:
            return "gemini-3.1-pro"      # $2/$12, 장문 강점

    # 성능 우선 → 태스크별 분기
    if task_type == "terminal_agent":
        return "gpt-5.5"                 # Terminal-Bench 1위

    if task_type in ["code_review", "refactor", "mcp"]:
        return "claude-opus-4.7"         # SWE-Bench Pro, MCP-Atlas 1위

    if task_type == "long_context" and context_tokens > 200_000:
        return "gpt-5.5"                 # Opus 4.7 surcharge 없음

    # 기본값
    return "claude-sonnet-4-6"           # 가성비 최강
[라우팅 원칙 정리]
→ 터미널/쉘/에이전트 자율 실행 → GPT-5.5
→ 코드리뷰/리팩토링/MCP 파이프라인 → Claude Opus 4.7
→ 200K 이상 장문 컨텍스트 → GPT-5.5 (surcharge 없음)
→ 일반 코딩/RAG/빠른 응답 → Claude Sonnet 4.6
→ 비용 최우선 → Gemini 3.1 Flash

마무리

✅ GPT-5.5 써야 할 때
→ 터미널 에이전트, 자율 쉘 실행 워크로드
→ 200K 이상 컨텍스트를 자주 쓰는 파이프라인
→ 이미 ChatGPT 비즈니스/엔터프라이즈 구독 중
→ CyberGym, BrowseComp 성능이 중요한 서비스

❌ GPT-5.5 안 써도 될 때
→ 코드리뷰·PR 자동화 → Claude Opus 4.7이 SWE-Bench Pro에서 앞섬
→ MCP 기반 파이프라인 → Opus 4.7 MCP-Atlas 1위
→ 빠른 TTFT 필요한 인터랙티브 서비스 → Opus 4.7 0.5s vs GPT-5.5 3s
→ 비용 민감한 사이드 프로젝트 → Sonnet 4.6 또는 Gemini Flash

관련 글

 

GPT-5.5 출시 완전 분석 — Claude Opus 4.7에 일주일 만에 날린 OpenAI의 반격

6주 만에 새 모델이 나왔습니다. AI 코딩 툴 전쟁, 이제 속도전입니다.[핵심 요약]→ GPT-5.5: 2026년 4월 23일 출시, GPT-5.4 이후 6주 만→ 핵심: 에이전트 코딩 특화, 다단계 작업 자율 처리→ 포지셔닝:

cell-devlog.tistory.com

 

 

Opus 4.7 에이전트 비용 제어 실전 — effort + Task Budget 완전 가이드

에이전트를 Opus 4.7로 돌리면 비용이 예측 불가예요.왜 예측이 안 되냐:→ 에이전트 루프: 생각 + 툴 호출 + 툴 결과 + 출력이 쌓임→ xhigh 기본값: 더 많이 생각함→ 새 토크나이저: 같은 텍스트도

cell-devlog.tistory.com

 

 

LLM 모델 라우팅 완전 가이드 — 분류기, 캐스케이딩, 시맨틱 캐시 실전

LLM을 프로덕션에 올리면 첫 달 청구서가 이렇게 나와요.예상: $300/월실제: $2,400/월원인 분석해보면 이래요.고객: "배송 얼마나 걸려요?"→ Claude Opus 4.6 응답 ($0.015/1K토큰)고객: "안녕하세요"→ Claud

cell-devlog.tistory.com

 

 

SLM 실전 가이드 — Gemma 4, Qwen3.5, Phi-4로 API 비용 95% 줄이는 법

Claude API 쓰다 보면 월말에 이런 청구서가 날아와요.API 비용: $3,200예산: $500원인은 단순해요. 모든 요청에 수천억 파라미터 모델을 쓰고 있어서예요.고객이 "배송 얼마나 걸려요?"라고 물어봐도 Cl

cell-devlog.tistory.com

 

반응형