Claude Opus 4.8 — 69.2%. 10포인트 차이입니다.
그런데 이번 릴리스가 숫자 경쟁 이상인 이유가 있습니다. Dynamic Workflows, effort 기본값 전환, Messages API의 mid-task system message — 세 가지가 에이전틱 개발 방식 자체를 바꿉니다. 기존 파이프라인을 Opus 4.8로 올리기 전에 반드시 알아야 할 것들을 정리했습니다.
핵심 요약
→ 출시일: 2026년 5월 28일, API 모델 ID claude-opus-4-8
→ 가격: Opus 4.7과 동일 — 입력 $5/백만 토큰, 출력 $25/백만 토큰
→ Fast Mode: 입력 $10, 출력 $50, 2.5× 속도 (이전 Fast Mode 대비 3배 저렴)
→ 컨텍스트: 1M 입력 / 128K 출력, 베타 헤더 없이 기본 제공
→ SWE-bench Verified 88.6% (4.7: 87.6%), SWE-bench Pro 69.2% (4.7: 64.3%)
→ GDPval-AA 지식업무 Elo 1890 — GPT-5.5(1769), Opus 4.7(1753) 앞섬
→ USAMO 수학 96.7% — Opus 4.7(69.3%) 대비 27포인트 점프
→ effort 기본값 medium → high 전환 (파이프라인 비용·속도 영향 주의)
→ Dynamic Workflows: Claude Code에서 최대 1,000개 병렬 서브에이전트 (리서치 프리뷰)
→ Messages API: 태스크 중간에 system 메시지 삽입 가능 — 프롬프트 캐시 유지됨
→ 정직성(honesty): 결함 코드 무언급 통과 확률 Opus 4.7 대비 4배 감소
→ Claude Mythos 수주 내 일반 공개 예고
실전 1 — 벤치마크 실제로 뭘 의미하나
벤치마크 숫자만 보면 "또 조금 올랐네" 싶지만, 이번에는 맥락이 다릅니다.
SWE-bench Pro vs Verified 차이
벤치마크 설명 Opus 4.8 Opus 4.7 GPT-5.5
| SWE-bench Verified | 사람이 검증한 GitHub 이슈 해결 | 88.6% | 87.6% | ~80% |
| SWE-bench Pro | 최신 오픈소스 이슈 (오염 없음) | 69.2% | 64.3% | 58.6% |
| Terminal-Bench 2.1 | CLI 에이전트 실제 실행 능력 | 74.6% | 66.1% | 78.2% |
| GDPval-AA Elo | 지식업무 종합 | 1890 | 1753 | 1769 |
| USAMO 2026 | 대회급 수학 | 96.7% | 69.3% | — |
→ SWE-bench Pro는 학습 데이터 오염이 없는 최신 이슈 기준이라 실제 코딩 성능에 가장 가깝습니다. 10.6포인트 차이는 유의미합니다.
→ Terminal-Bench 2.1은 GPT-5.5(78.2%)가 앞섭니다. CLI 중심 자동화 에이전트라면 이 수치 주목 필요.
→ USAMO 27포인트 점프는 수학적 추론의 질적 도약을 의미합니다.
Bridgewater가 말한 것
Anthropic 공식 발표에서 Bridgewater Associates의 평가가 눈에 띕니다. "분석의 입출력에서 문제를 선제적으로 플래그하는 경향 — 다른 모델들은 놓치고 사용자에게 떠넘기던 것을." 이것이 이번 릴리스의 핵심입니다. 숫자가 아니라 모델이 언제 틀렸는지 스스로 말하는지 여부.
실전 2 — effort 기본값 변경: 파이프라인 체크 필수
이번 릴리스에서 가장 조용하게, 가장 크게 영향을 미치는 변경사항입니다.
변경 내용
Opus 4.7 기본: medium
Opus 4.8 기본: high ← 전환됨
effort 레벨 전체 맵
레벨 사용 시점 토큰 소비
| low | 분류, 단순 조회, 대용량 처리 | 최소 |
| medium | 일반 작업, 속도·비용 균형 | 중간 |
| high | 복잡한 추론, 코딩 (새 기본값) | Opus 4.7 기본과 유사 |
| extra | 난이도 높은 에이전트 작업 | 높음 |
| xhigh | 복잡한 코딩, 멀티에이전트 | 매우 높음 |
| max | 최고 품질 필요 | 최대 |
Anthropic의 설명: high는 Opus 4.7의 medium 기본값과 토큰 소비가 비슷하지만 성능이 더 좋습니다. 즉, 비용은 유지하면서 품질이 올라가는 구조.
다만 명시적으로 effort를 설정하지 않은 기존 코드는 영향 없음이 아닙니다:
# ❌ Opus 4.7 때 아무 설정 없이 쓰던 코드
response = client.messages.create(
model="claude-opus-4-7", # 기본: medium
max_tokens=4096,
messages=[...]
)
# ✅ Opus 4.8로 올리면 기본이 high로 바뀜
# 고용량 파이프라인이라면 명시적으로 지정
response = client.messages.create(
model="claude-opus-4-8",
max_tokens=4096,
thinking={"type": "enabled", "budget_tokens": 10000},
# 비용 민감 파이프라인이라면:
# effort: "medium" ← 명시 권장
messages=[...]
)
마이그레이션 체크포인트
→ effort를 명시적으로 설정하고 있다면 그대로 유지됨
→ 명시 없이 model만 바꾸면 high로 전환됨
→ 대용량 분류·요약 파이프라인은 비용 시뮬레이션 먼저
Claude Code의 ultracode 모드는 xhigh + 멀티에이전트 실행 권한을 함께 부여하는 단축 설정입니다. API의 별도 파라미터가 아니라 Claude Code 전용 UI 메뉴입니다.
실전 3 — Dynamic Workflows: 에이전트 1,000개를 어떻게 씁니까
무엇인가
Claude Code에서 단일 세션 안에 최대 1,000개의 병렬 서브에이전트를 실행할 수 있는 기능입니다. 현재 리서치 프리뷰 — Enterprise, Team, Max 플랜 한정.
기존 방식과의 차이
기존: 단일 에이전트 → 순차 실행 → 느림
에이전트 팀(Agent Teams): 역할 고정 팀 구성 → 구축 비용 높음
Dynamic Workflows: Opus 4.8이 작업을 분석 → 자동으로 서브에이전트 계획
→ 병렬 실행 → 결과 취합 → 리포트
실제 사례: Bun 프로젝트 Rust 마이그레이션
Bun의 Jarred Sumner가 Dynamic Workflows를 사용해 약 75만 줄 Rust 코드를 11일 만에 마이그레이션했습니다. 순차 실행이었다면 수개월이 걸릴 작업.
활용 패턴
적합한 작업:
→ 대규모 레포 데드 코드 탐색 (Klarna 사례)
→ 수십만 줄 레거시 리팩토링
→ 멀티 레포 동시 분석
→ 대규모 테스트 스위트 병렬 실행
적합하지 않은 작업:
→ 단일 파일 수정
→ 단순 질의응답
→ 프롬프트 비용이 중요한 고빈도 요청
CyberAgent 리드 엔지니어 Ken Takao의 평가: "단일 서브에이전트와 풀 에이전트 팀 사이의 갭을 채워주는 중간 계층. 긴 작업을 가시성 없이 돌리던 불안감이 사라졌다."
실전 4 — Messages API mid-task system message
에이전트 파이프라인 개발자에게는 벤치마크보다 이게 더 중요할 수 있습니다.
문제: 기존 방식의 불편함
# ❌ 기존 방법 — 권한 변경을 user 메시지로 위장
messages = [
{"role": "user", "content": "코드 분석 시작해"},
{"role": "assistant", "content": "..."},
# 권한을 바꾸려면 user 메시지로 우겨넣어야 했음
{"role": "user", "content": "[SYSTEM] 이제부터 파일 쓰기 권한 없음"}
# → 프롬프트 캐시 깨짐 + 명확하지 않음
]
해결: Opus 4.8 mid-task system message
# ✅ 이제 가능 — user 턴 직후 system 메시지 삽입
messages = [
{"role": "user", "content": "코드베이스 분석 시작해"},
{"role": "assistant", "content": "분석 중..."},
{"role": "user", "content": "다음 단계로"},
# 여기서 권한·컨텍스트 업데이트
{"role": "system", "content": "파일 쓰기 권한 제거됨. 읽기만 허용."},
{"role": "user", "content": "계속해"}
# 이전 캐시 유지됨 → 비용 절감
]
실전 활용 시나리오
시나리오 업데이트 내용
| 단계별 권한 축소 | "이제 파일 삭제 불가" |
| 토큰 예산 재조정 | "남은 예산 2000토큰으로 제한" |
| 환경 컨텍스트 주입 | "데이터베이스 연결 끊김, 캐시만 사용" |
| 에러 복구 안내 | "이전 단계 실패, 다음 전략으로 전환" |
주의: 이전 모델(Opus 4.7 포함)은 messages 배열 안 role: "system"에 400 에러 반환. Opus 4.8 전용 기능.
실전 5 — 4.7에서 4.8 마이그레이션 체크리스트
✅ 체크 1: model 문자열 변경
"claude-opus-4-7" → "claude-opus-4-8"
✅ 체크 2: effort 명시 여부 확인
- 명시했으면 그대로
- 없으면 high로 전환됨 → 비용 시뮬레이션
✅ 체크 3: context-window 베타 헤더 제거
- 1M 컨텍스트가 이제 기본값, 베타 헤더 불필요
✅ 체크 4: user 턴 위장 system 메시지 리팩토링
- 롱 에이전트 루프라면 mid-task system message로 교체
- 캐시 히트율 개선 효과 있음
✅ 체크 5: stop_details 핸들링 추가 (선택)
- 거절 응답의 카테고리 분류 가능
- 400 retry path 있으면 제거
마무리
항목 평가
| ✅ 동일 가격에 SWE-bench Pro +4.9p | 바로 업그레이드 이득 |
| ✅ 결함 코드 무언급 통과 4배 감소 | 코드 리뷰 에이전트에 즉각 효과 |
| ✅ Fast Mode 3배 저렴해짐 | 속도 필요한 파이프라인 재검토 |
| ✅ Messages API mid-task system message | 롱 에이전트 루프 구조 개선 |
| ✅ Dynamic Workflows (리서치 프리뷰) | 대규모 레포 작업에 실질적 효과 |
| ❌ Terminal-Bench 2.1 GPT-5.5에 뒤짐 | CLI 에이전트 중심이라면 비교 필요 |
| ❌ extended thinking 미지원 | Opus 4.7과 동일 제한 |
| ❌ Dynamic Workflows Enterprise/Team/Max 한정 | Pro 플랜 사용자는 대기 |
41일 만의 릴리스, 동일 가격, 유의미한 벤치마크 개선. 기존 Opus 4.7 파이프라인이 있다면 마이그레이션 체크리스트 5개 확인 후 바로 전환하는 게 맞습니다. 단, effort 기본값 변경은 비용에 조용히 영향을 줄 수 있으니 고용량 파이프라인은 반드시 먼저 확인하세요.
관련 글
'Claude' 카테고리의 다른 글
| Claude Code Dynamic Workflows 실전 — 병렬 서브에이전트로 대규모 리팩토링 하는 법 (0) | 2026.06.01 |
|---|---|
| Claude Opus 4.8 Fast Mode 완전 분석 — 2.5배 빠르고 3배 싸다는 게 실제로 맞는가 (0) | 2026.06.01 |
| LLM 배치 처리 실전 — Anthropic Message Batches API로 비용 50% 절감 (0) | 2026.05.29 |
| Claude Code Hooks 완전가이드 — 프롬프트 요청이 아닌 보장된 실행 (0) | 2026.05.29 |
| 일본 정부 + 3대 메가뱅크 Claude Mythos 도입 — 왜 하필 일본이 첫 번째 비(非)영미권 파트너인가 (1) | 2026.05.29 |