Anthropic이 Opus 4.8을 공개하면서 스스로 "겸손한 개선"이라고 했습니다. 그런데 뜯어보면 이야기가 다릅니다.
핵심 요약
→ Claude Opus 4.8, 2026년 5월 28일 출시 — Opus 4.7 대비 6주 만의 업데이트
→ 가격 동일: 입력 $5 / 출력 $25 (백만 토큰당)
→ SWE-Bench Pro 69.2% — Opus 4.7(64.3%), GPT-5.5(58.6%), Gemini 3.1 Pro(54.2%) 모두 초과
→ SWE-Bench Verified 88.6% — 전작 대비 1.0%p 상승
→ Terminal-Bench 2.1 74.6% — 전작 대비 8.5%p 급등, 가장 큰 폭 개선
→ 핵심 변화는 벤치마크가 아닌 정직성 — 코드 결함을 표시 없이 통과시키는 확률 전작 대비 4배 감소
→ Dynamic Workflows 신기능: Claude Code에서 수백 개 병렬 서브에이전트 실행 가능 (리서치 프리뷰)
→ Fast Mode 가격 3배 저렴 — 2.5× 속도로 실행, 이전 대비 비용 1/3
→ Effort Control 신기능: claude.ai에서 태스크 난이도에 따라 모델 노력 수동 조절 가능
→ 정렬(alignment) 평가에서 비정렬 행동이 Opus 4.7보다 현저히 낮고, Claude Mythos Preview 수준에 근접
실전 1 — 벤치마크 수치 완전 정리
벤치마크 Opus 4.8 Opus 4.7 GPT-5.5 Gemini 3.1 Pro
| SWE-Bench Pro | 69.2% | 64.3% | 58.6% | 54.2% |
| SWE-Bench Verified | 88.6% | 87.6% | 미공개 | 미공개 |
| Terminal-Bench 2.1 | 74.6% | 66.1% | 미공개 | 미공개 |
| Online-Mind2Web | 84% | 미공개 | 낮음 | 미공개 |
| Legal Agent Benchmark | 1위 (10% 올패스 첫 돌파) | — | — | — |
SWE-Bench Pro가 중요한 이유:
SWE-Bench Verified가 "GitHub 이슈 해결 가능한가"를 측정한다면, SWE-Bench Pro는 실제 프로덕션 수준의 복잡한 멀티파일 버그 수정 능력을 측정합니다. 4.8이 69.2%를 기록했다는 건, 현재 공개 모델 중 가장 복잡한 실전 코딩 태스크를 가장 잘 처리한다는 뜻이에요.
Terminal-Bench 2.1이 눈에 띄는 이유:
8.5%p 상승은 이번 업데이트에서 가장 큰 폭입니다. 터미널 환경에서의 자율 실행 능력 — 파일 시스템 탐색, CLI 도구 활용, 환경 설정 — 이 크게 향상됐다는 뜻이에요. Claude Code가 혼자 돌아가는 시간이 길어질수록 이 지표가 직접적으로 체감됩니다.
실전 2 — 정직성 향상: 수치보다 중요한 변화
Anthropic이 이번 업데이트에서 가장 강조한 건 벤치마크가 아닙니다. "정직성(honesty)" 입니다.
구체적으로 무슨 뜻인가:
AI 모델의 고질적 문제 중 하나는 자기가 작성한 코드에 버그가 있어도 "완료"라고 보고한다는 겁니다. 특히 에이전트 태스크처럼 사람이 중간에 확인하지 않는 워크플로우에서 이 문제가 치명적이에요.
→ Opus 4.8은 코드 결함을 표시 없이 통과시킬 확률이 Opus 4.7 대비 4배 감소
→ 계획이 부실하다고 판단하면 그냥 진행하지 않고 반박하고 재확인 요청
→ 불확실할 때 확신인 척하지 않고 불확실성을 명시
실제 현장 피드백(Anthropic 공식 발표):
"Claude Opus 4.8은 올바른 질문을 하고, 자신의 실수를 포착하고, 계획이 타당하지 않을 때 반박하며, 대규모 변경 전에 복잡한 멀티서비스 탐색에서 자신감을 쌓습니다." — Tom Pritchard, Staff Engineer
"Opus 4.8이 입력과 출력의 문제를 사전에 표시하는 경향이 가장 큰 차별점이었습니다. 다른 모델들은 이를 놓치고 사용자가 잡도록 남겨뒀습니다." — Michael Ran, Senior Investment Associate
실전 3 — Dynamic Workflows: 에이전트 실행의 패러다임 변화
가장 야심 찬 신기능입니다. 현재 리서치 프리뷰 단계.
기존 Claude Code 한계:
기존 방식:
Claude Code → 태스크 A 완료 → 태스크 B 시작 → 태스크 C 시작
(순차 실행, 각 태스크가 끝나야 다음 시작)
문제: 수백 개 파일을 분석해야 하는 대규모 코드베이스 작업에서
시간이 선형으로 증가
Dynamic Workflows:
새로운 방식:
Claude Code → 태스크 A + 태스크 B + 태스크 C ... 동시에 병렬 실행
(수백 개 서브에이전트 한 세션에서 동시 스케줄링)
→ 대규모 코드베이스 리팩토링, 전체 테스트 스위트 동시 실행,
멀티 레포지토리 분석 등에서 속도 비약적 향상
실제 사용 예시:
# Dynamic Workflows 활성화 (리서치 프리뷰)
# Claude Code에서 대규모 리팩토링 요청
"이 모노레포 전체에서 deprecated API 사용 패턴 찾아서
모두 새 인터페이스로 마이그레이션해줘"
# → Claude가 자동으로 파일별 서브에이전트 생성
# → 수십~수백 개 파일 병렬 분석·수정
# → 각 서브에이전트가 충돌 없이 독립 실행
# → 전체 완료 후 통합 보고
❌ 주의: 아직 리서치 프리뷰 단계 — 프로덕션 크리티컬 작업에 바로 쓰기엔 아직 이르고, 검증 필요
실전 4 — Fast Mode와 Effort Control: 비용·속도 전략
Fast Mode 가격 3배 인하:
Opus 4.8 Fast Mode는 2.5배 속도로 동작하면서 이전 모델 대비 비용이 1/3로 내려갔습니다.
비용 비교:
Opus 4.7 Fast Mode: 기준 X
Opus 4.8 Fast Mode: 기준 X / 3
→ 처리량이 많은 에이전트 파이프라인에서 비용 구조 개선 효과 큼
→ 배치 처리, 대규모 코드 스캔 등에서 활용 가치 높음
Effort Control (claude.ai):
태스크 복잡도에 따라 모델이 쏟는 노력(=사고 토큰)을 수동 조절하는 기능입니다.
낮음 → 빠른 응답, 간단한 태스크용
보통 → 기본값
높음 → 느리지만 복잡한 추론·분석에 최적
→ API에서도 effort 파라미터로 제어 가능
→ 비용 최적화 전략: 단순 태스크는 낮음, 복잡한 추론은 높음으로 라우팅
import anthropic
client = anthropic.Anthropic()
# Effort Control API 활용 예시
response = client.messages.create(
model="claude-opus-4-8-20260528",
max_tokens=8096,
thinking={
"type": "enabled",
"budget_tokens": 10000 # 낮은 effort: 2000 / 높은 effort: 30000+
},
messages=[{
"role": "user",
"content": "이 코드베이스의 성능 병목을 찾아서 최적화 방안 제시해줘"
}]
)
실전 5 — Opus 4.7 대비 실제 달라진 것, 달라지지 않은 것
달라진 것:
✅ SWE-Bench Pro 64.3% → 69.2% (4.9%p 상승)
✅ Terminal-Bench 66.1% → 74.6% (8.5%p 상승)
✅ 코드 결함 통과 확률 4배 감소
✅ Dynamic Workflows 신기능 (리서치 프리뷰)
✅ Fast Mode 비용 1/3로 인하
✅ Effort Control 추가
✅ Opus 4.7에 있던 코멘트 과다 출력·툴 호출 오류 수정 (Devin CEO 언급)
✅ 비정렬 행동 지표 현저히 감소 — Mythos Preview 수준에 근접
달라지지 않은 것:
→ 가격: 입력 $5 / 출력 $25 그대로
→ 컨텍스트 윈도우: 200K 유지
→ 모델 포지셔닝: Sonnet·Haiku 위, Mythos 아래 그대로
실전 6 — Opus 4.8 vs GPT-5.5 핵심 비교
항목 Claude Opus 4.8 GPT-5.5
| SWE-Bench Pro | 69.2% | 58.6% |
| 에이전트 코딩 | Claude Code + Dynamic Workflows | Codex |
| 정직성 개선 | 핵심 차별화 포인트 | 언급 없음 |
| 컨텍스트 | 200K | 100K (Codex는 1M) |
| 입력 가격 | $5/1M 토큰 | $10/1M 토큰 (추정) |
| 출력 가격 | $25/1M 토큰 | $30/1M 토큰 (추정) |
| 강점 | 에이전트 신뢰성, 정직성, 비용 효율 | 소비자 생태계, ChatGPT 브랜드 |
✅ 지금 Opus 4.8로 전환할 이유 / ❌ 주의할 것
✅ 전환 권장 ❌ 주의
| 가격 동일 — 비용 부담 없는 업그레이드 | Dynamic Workflows는 리서치 프리뷰 — 프로덕션 직접 투입 전 충분한 테스트 |
| 에이전트 태스크에서 정직성 크게 향상 | Opus 4.7 대비 코멘트 스타일 등 소소한 동작 차이 있을 수 있음 |
| Terminal-Bench 8.5%p 향상 — 장기 실행 에이전트에 직접 체감 | 아직 Mythos Preview와는 성능 격차 있음 |
| Fast Mode 비용 1/3 — 대규모 파이프라인 비용 절감 |
'Claude' 카테고리의 다른 글
| AI가 엑셀을 대신 써준다? Claude in Excel 실제로 써봤다 (0) | 2026.06.05 |
|---|---|
| Claude Mythos와 Project Glasswing 완전 분석 — 공개 거부된 AI가 취약점 1만 개를 찾아낸 이유 (0) | 2026.06.04 |
| Claude Opus 4.8 Effort Control 완전 가이드 — low/medium/high/xhigh/max 언제 쓰는가 (0) | 2026.06.01 |
| Claude Opus 4.8 Mid-conversation System Messages 실전 — 에이전트 루프 중간에 지시 바꾸는 법 (0) | 2026.06.01 |
| Claude Code Dynamic Workflows 실전 — 병렬 서브에이전트로 대규모 리팩토링 하는 법 (0) | 2026.06.01 |