본문 바로가기

LLM

Claude Opus 4.7 출시 — SWE-bench Pro 1위, GPT-5.4 완전히 제쳤다

반응형

2026년 4월 17일 오늘, Anthropic이 Claude Opus 4.7을 공식 출시했어요.

예고된 대로 나왔고, 개발자들이 기다리던 업그레이드가 맞아요.

한 줄 요약:
코딩 에이전트 벤치마크에서 GPT-5.4와 Gemini 3.1 Pro를 제쳤어요.
가격은 Opus 4.6과 동일. ($5/$25 per M tokens)

벤치마크 비교

SWE-bench Pro (실제 GitHub 이슈 해결):
Opus 4.7:      64.3% ← 1위
GPT-5.4:       57.7%
Gemini 3.1:    54.2%
Opus 4.6:      53.4%
→ Opus 4.6 대비 +11%p, GPT-5.4보다 +6.6%p

SWE-bench Verified:
Opus 4.7:      87.6%
Gemini 3.1:    80.6%
Opus 4.6:      80.8%

CursorBench (실제 코딩 에이전트 성능):
Opus 4.7:      70%
Opus 4.6:      58%
→ +12%p

MCP-Atlas (툴 사용):
Opus 4.7:      77.3% ← 1위
GPT-5.4:       68.1%
Gemini 3.1:    73.9%

Finance Agent v1.1:
Opus 4.7:      64.4% ← 1위

GPQA Diamond (대학원 수준 추론):
Opus 4.7:      94.2%
GPT-5.4:       94.4%
Gemini 3.1:    94.3%
→ 세 모델 다 포화 상태 (사실상 동점)

GPT-5.4가 앞서는 것도 있어요:

Terminal-Bench 2.0 (터미널 작업):
GPT-5.4:    75.1%
Opus 4.7:   69.4% ← 2위

BrowseComp (웹 탐색):
GPT-5.4:    89.3%
Opus 4.7:   79.3%

→ 터미널/웹 탐색은 GPT-5.4가 아직 앞섬

주요 변경 사항

1. 비전 해상도 3배 향상

Opus 4.6: 최대 1.15 메가픽셀 (1,568px)
Opus 4.7: 최대 3.75 메가픽셀 (2,576px)

→ 3배 이상 향상
→ 스크린샷, 디자인 목업, 문서 이미지 정밀도 대폭 향상
→ 컴퓨터 사용(Computer Use) 시 픽셀 좌표 1:1 매핑
→ 이전엔 스케일 계산 필요했는데 이제 불필요

실제 차이:

이전: 고해상도 UI 스크린샷 → 텍스트 흐릿하게 인식
이후: 같은 스크린샷 → 작은 버튼 텍스트까지 정확히 읽음

디버깅 활용:
에러 스크린샷 붙여넣기 → Opus 4.7이 정확히 분석

2. xhigh 추론 레벨 신설

기존 추론 레벨: low → medium → high → max
새로운 레벨:   low → medium → high → xhigh → max

xhigh = high와 max 사이
→ max보다 빠르고, high보다 정확
→ 코딩/에이전트 작업에 최적

Anthropic 권장:

코딩 작업:   xhigh 또는 high로 시작
에이전트:    xhigh 또는 high로 시작
빠른 작업:  medium 또는 low

Claude Code가 이제 기본값을 xhigh로 설정했어요.

3. Task Budgets — 에이전트 토큰 예산

에이전트가 무한정 토큰을 쓰는 문제를 해결해요.

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=8096,
    thinking={
        "type": "enabled",
        "effort": "xhigh",
        "budget_tokens": 50000  # 에이전트 전체 루프에 50K 토큰 예산
    },
    messages=[{
        "role": "user",
        "content": "이 레포지토리에서 버그 찾아줘"
    }]
)
예산 작동 방식:
→ 모델이 남은 예산을 보면서 작업 우선순위 조정
→ 예산 소진 전에 작업 마무리
→ 저가치 단계는 건너뜀
→ 비용 예측 가능해짐

4. /ultrareview 명령어 (Claude Code)

# 기존 코드 리뷰
> /review

# 새로운 심층 리뷰
> /ultrareview

차이:
/review:      문법, 스타일, 명백한 버그
/ultrareview: 아키텍처 결함, 논리 갭, 
              시니어 개발자가 잡을 법한 미묘한 문제들

5. 새 토크나이저 — 주의 필요

중요한 변경사항:
새 토크나이저가 같은 텍스트에서 토큰을 1.0~1.35배 더 생성

예시:
이전: "안녕하세요" = 5토큰
이후: "안녕하세요" = 5~7토큰 (언어/내용에 따라 다름)

가격은 같지만 토큰이 늘어나면?
→ 실질 비용 최대 35% 증가 가능
→ 기존 프롬프트 비용 재계산 필요

API 변경사항 — 마이그레이션 전 확인

Breaking Changes:

# Opus 4.6 방식 (더 이상 안 됨)
response = client.messages.create(
    model="claude-opus-4-7",
    thinking={
        "type": "enabled",
        "budget_tokens": 10000  # ← 제거됨
    },
    temperature=0.7,  # ← 제거됨
    top_p=0.9,       # ← 제거됨
)

# Opus 4.7 올바른 방식
response = client.messages.create(
    model="claude-opus-4-7",
    thinking={
        "type": "enabled",
        "effort": "xhigh"  # ← budget_tokens 대신 effort 사용
    },
    # temperature, top_p 파라미터 없음
)

Managed Agents 사용자는 Breaking Change 없어요.


Mythos와의 관계

Anthropic이 이례적으로 솔직하게 인정했어요.

공식 발표:
"Opus 4.7은 Claude Mythos Preview보다
덜 광범위하게 유능합니다(less broadly capable)"

Mythos와 Opus 4.7 관계:
→ Mythos는 일부 사이버보안 위협이 될 수 있어 비공개
→ Opus 4.7 = "안전하게 배포 가능한 최강 모델"
→ Mythos에서 테스트된 사이버 안전장치를 Opus 4.7에 먼저 적용

OSWorld (컴퓨터 사용):
Mythos:   79.6%
Opus 4.7: 78.0%  ← 1.6%p 차이로 근접

Opus 4.6 "nerfed" 논란에 대한 Anthropic 공식 입장

출시 전부터 커뮤니티에서 불만이 쏟아졌어요.

GitHub에서 AMD 시니어 디렉터가 올린 글:
"Claude가 복잡한 엔지니어링 작업을 신뢰할 수 없는
수준으로 퇴보했다"
→ 수천 개의 공감

커뮤니티 의혹:
→ Anthropic이 Mythos 컴퓨팅 자원 확보를 위해
  Opus 4.6을 의도적으로 성능 저하시켰다 (nerfed)

Anthropic 공식 부인:

"컴퓨팅 자원을 다른 프로젝트로 돌리기 위한
변경은 없었습니다"

실제 이유 (추정):
→ 4.7 출시 준비로 4.6 최적화 중단
→ 서버 용량 관리 변경
→ 확실한 답은 없음

개발자 실전 마이그레이션 가이드

# 1. 모델 이름 변경
old_model = "claude-opus-4-6"
new_model = "claude-opus-4-7"

# 2. thinking 파라미터 변경
# 이전
thinking_old = {"type": "enabled", "budget_tokens": 8000}

# 이후
thinking_new = {"type": "enabled", "effort": "xhigh"}

# 3. temperature/top_p 제거
# 이전 코드에서 temperature, top_p 파라미터 있으면 제거

# 4. 토큰 비용 재계산
# 같은 프롬프트라도 최대 35% 토큰 증가 가능
# 비용 알림 임계값 조정 필요

# 5. Task Budgets 추가 고려
# 에이전트 루프에서 비용 제어 원하면
thinking_with_budget = {
    "type": "enabled",
    "effort": "xhigh",
    "budget_tokens": 50000  # 전체 루프 예산
}

요약

Opus 4.7이 잘하는 것:
✅ 코딩 에이전트 (SWE-bench Pro 1위)
✅ 툴 사용 (MCP-Atlas 1위)
✅ 비전/스크린샷 분석
✅ 장기 실행 에이전트
✅ 재무 분석

GPT-5.4가 여전히 앞서는 것:
❌ 터미널 작업 (Terminal-Bench)
❌ 웹 탐색 (BrowseComp)
❌ 에이전트 검색

모두 동점인 것:
➡️ 대학원 수준 추론 (GPQA Diamond ~94%)

가격: Opus 4.6과 동일
     단, 새 토크나이저로 실질 비용 최대 35% 증가 가능

 

반응형