반응형
2026년 4월 17일 오늘, Anthropic이 Claude Opus 4.7을 공식 출시했어요.
예고된 대로 나왔고, 개발자들이 기다리던 업그레이드가 맞아요.
한 줄 요약:
코딩 에이전트 벤치마크에서 GPT-5.4와 Gemini 3.1 Pro를 제쳤어요.
가격은 Opus 4.6과 동일. ($5/$25 per M tokens)
벤치마크 비교
SWE-bench Pro (실제 GitHub 이슈 해결):
Opus 4.7: 64.3% ← 1위
GPT-5.4: 57.7%
Gemini 3.1: 54.2%
Opus 4.6: 53.4%
→ Opus 4.6 대비 +11%p, GPT-5.4보다 +6.6%p
SWE-bench Verified:
Opus 4.7: 87.6%
Gemini 3.1: 80.6%
Opus 4.6: 80.8%
CursorBench (실제 코딩 에이전트 성능):
Opus 4.7: 70%
Opus 4.6: 58%
→ +12%p
MCP-Atlas (툴 사용):
Opus 4.7: 77.3% ← 1위
GPT-5.4: 68.1%
Gemini 3.1: 73.9%
Finance Agent v1.1:
Opus 4.7: 64.4% ← 1위
GPQA Diamond (대학원 수준 추론):
Opus 4.7: 94.2%
GPT-5.4: 94.4%
Gemini 3.1: 94.3%
→ 세 모델 다 포화 상태 (사실상 동점)
GPT-5.4가 앞서는 것도 있어요:
Terminal-Bench 2.0 (터미널 작업):
GPT-5.4: 75.1%
Opus 4.7: 69.4% ← 2위
BrowseComp (웹 탐색):
GPT-5.4: 89.3%
Opus 4.7: 79.3%
→ 터미널/웹 탐색은 GPT-5.4가 아직 앞섬
주요 변경 사항
1. 비전 해상도 3배 향상
Opus 4.6: 최대 1.15 메가픽셀 (1,568px)
Opus 4.7: 최대 3.75 메가픽셀 (2,576px)
→ 3배 이상 향상
→ 스크린샷, 디자인 목업, 문서 이미지 정밀도 대폭 향상
→ 컴퓨터 사용(Computer Use) 시 픽셀 좌표 1:1 매핑
→ 이전엔 스케일 계산 필요했는데 이제 불필요
실제 차이:
이전: 고해상도 UI 스크린샷 → 텍스트 흐릿하게 인식
이후: 같은 스크린샷 → 작은 버튼 텍스트까지 정확히 읽음
디버깅 활용:
에러 스크린샷 붙여넣기 → Opus 4.7이 정확히 분석
2. xhigh 추론 레벨 신설
기존 추론 레벨: low → medium → high → max
새로운 레벨: low → medium → high → xhigh → max
xhigh = high와 max 사이
→ max보다 빠르고, high보다 정확
→ 코딩/에이전트 작업에 최적
Anthropic 권장:
코딩 작업: xhigh 또는 high로 시작
에이전트: xhigh 또는 high로 시작
빠른 작업: medium 또는 low
Claude Code가 이제 기본값을 xhigh로 설정했어요.
3. Task Budgets — 에이전트 토큰 예산
에이전트가 무한정 토큰을 쓰는 문제를 해결해요.
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-opus-4-7",
max_tokens=8096,
thinking={
"type": "enabled",
"effort": "xhigh",
"budget_tokens": 50000 # 에이전트 전체 루프에 50K 토큰 예산
},
messages=[{
"role": "user",
"content": "이 레포지토리에서 버그 찾아줘"
}]
)
예산 작동 방식:
→ 모델이 남은 예산을 보면서 작업 우선순위 조정
→ 예산 소진 전에 작업 마무리
→ 저가치 단계는 건너뜀
→ 비용 예측 가능해짐
4. /ultrareview 명령어 (Claude Code)
# 기존 코드 리뷰
> /review
# 새로운 심층 리뷰
> /ultrareview
차이:
/review: 문법, 스타일, 명백한 버그
/ultrareview: 아키텍처 결함, 논리 갭,
시니어 개발자가 잡을 법한 미묘한 문제들
5. 새 토크나이저 — 주의 필요
중요한 변경사항:
새 토크나이저가 같은 텍스트에서 토큰을 1.0~1.35배 더 생성
예시:
이전: "안녕하세요" = 5토큰
이후: "안녕하세요" = 5~7토큰 (언어/내용에 따라 다름)
가격은 같지만 토큰이 늘어나면?
→ 실질 비용 최대 35% 증가 가능
→ 기존 프롬프트 비용 재계산 필요
API 변경사항 — 마이그레이션 전 확인
Breaking Changes:
# Opus 4.6 방식 (더 이상 안 됨)
response = client.messages.create(
model="claude-opus-4-7",
thinking={
"type": "enabled",
"budget_tokens": 10000 # ← 제거됨
},
temperature=0.7, # ← 제거됨
top_p=0.9, # ← 제거됨
)
# Opus 4.7 올바른 방식
response = client.messages.create(
model="claude-opus-4-7",
thinking={
"type": "enabled",
"effort": "xhigh" # ← budget_tokens 대신 effort 사용
},
# temperature, top_p 파라미터 없음
)
Managed Agents 사용자는 Breaking Change 없어요.
Mythos와의 관계
Anthropic이 이례적으로 솔직하게 인정했어요.
공식 발표:
"Opus 4.7은 Claude Mythos Preview보다
덜 광범위하게 유능합니다(less broadly capable)"
Mythos와 Opus 4.7 관계:
→ Mythos는 일부 사이버보안 위협이 될 수 있어 비공개
→ Opus 4.7 = "안전하게 배포 가능한 최강 모델"
→ Mythos에서 테스트된 사이버 안전장치를 Opus 4.7에 먼저 적용
OSWorld (컴퓨터 사용):
Mythos: 79.6%
Opus 4.7: 78.0% ← 1.6%p 차이로 근접
Opus 4.6 "nerfed" 논란에 대한 Anthropic 공식 입장
출시 전부터 커뮤니티에서 불만이 쏟아졌어요.
GitHub에서 AMD 시니어 디렉터가 올린 글:
"Claude가 복잡한 엔지니어링 작업을 신뢰할 수 없는
수준으로 퇴보했다"
→ 수천 개의 공감
커뮤니티 의혹:
→ Anthropic이 Mythos 컴퓨팅 자원 확보를 위해
Opus 4.6을 의도적으로 성능 저하시켰다 (nerfed)
Anthropic 공식 부인:
"컴퓨팅 자원을 다른 프로젝트로 돌리기 위한
변경은 없었습니다"
실제 이유 (추정):
→ 4.7 출시 준비로 4.6 최적화 중단
→ 서버 용량 관리 변경
→ 확실한 답은 없음
개발자 실전 마이그레이션 가이드
# 1. 모델 이름 변경
old_model = "claude-opus-4-6"
new_model = "claude-opus-4-7"
# 2. thinking 파라미터 변경
# 이전
thinking_old = {"type": "enabled", "budget_tokens": 8000}
# 이후
thinking_new = {"type": "enabled", "effort": "xhigh"}
# 3. temperature/top_p 제거
# 이전 코드에서 temperature, top_p 파라미터 있으면 제거
# 4. 토큰 비용 재계산
# 같은 프롬프트라도 최대 35% 토큰 증가 가능
# 비용 알림 임계값 조정 필요
# 5. Task Budgets 추가 고려
# 에이전트 루프에서 비용 제어 원하면
thinking_with_budget = {
"type": "enabled",
"effort": "xhigh",
"budget_tokens": 50000 # 전체 루프 예산
}
요약
Opus 4.7이 잘하는 것:
✅ 코딩 에이전트 (SWE-bench Pro 1위)
✅ 툴 사용 (MCP-Atlas 1위)
✅ 비전/스크린샷 분석
✅ 장기 실행 에이전트
✅ 재무 분석
GPT-5.4가 여전히 앞서는 것:
❌ 터미널 작업 (Terminal-Bench)
❌ 웹 탐색 (BrowseComp)
❌ 에이전트 검색
모두 동점인 것:
➡️ 대학원 수준 추론 (GPQA Diamond ~94%)
가격: Opus 4.6과 동일
단, 새 토크나이저로 실질 비용 최대 35% 증가 가능
반응형
'LLM' 카테고리의 다른 글
| Opus 4.7 에이전트 비용 제어 실전 — effort + Task Budget 완전 가이드 (0) | 2026.04.20 |
|---|---|
| Claude Opus 4.7 토크나이저 함정 — 같은 가격, 더 많은 비용 (0) | 2026.04.20 |
| GLM-5.1 vs Claude Opus 4.6 vs GPT-5.4 (0) | 2026.04.16 |
| Anthropic Claude Opus 4.7 + AI 디자인 툴 이번주 출시 예정 — Figma, Wix 주가 폭락한 이유 (0) | 2026.04.16 |
| SGLang B300 GPU (SM103)에서 Qwen3.5 서빙 — Attention Backend (0) | 2026.04.15 |