본문 바로가기

Claude

Claude Opus 4.8 — 69.2: GPT-5.5가 SWE-bench Pro 58.6%로 정상을 노리던 그 자리, Anthropic이 41일 만에 답했습니다.

반응형

Claude Opus 4.8 — 69.2%. 10포인트 차이입니다.

그런데 이번 릴리스가 숫자 경쟁 이상인 이유가 있습니다. Dynamic Workflows, effort 기본값 전환, Messages API의 mid-task system message — 세 가지가 에이전틱 개발 방식 자체를 바꿉니다. 기존 파이프라인을 Opus 4.8로 올리기 전에 반드시 알아야 할 것들을 정리했습니다.


핵심 요약

→ 출시일: 2026년 5월 28일, API 모델 ID claude-opus-4-8
→ 가격: Opus 4.7과 동일 — 입력 $5/백만 토큰, 출력 $25/백만 토큰
→ Fast Mode: 입력 $10, 출력 $50, 2.5× 속도 (이전 Fast Mode 대비 3배 저렴)
→ 컨텍스트: 1M 입력 / 128K 출력, 베타 헤더 없이 기본 제공
→ SWE-bench Verified 88.6% (4.7: 87.6%), SWE-bench Pro 69.2% (4.7: 64.3%)
→ GDPval-AA 지식업무 Elo 1890 — GPT-5.5(1769), Opus 4.7(1753) 앞섬
→ USAMO 수학 96.7% — Opus 4.7(69.3%) 대비 27포인트 점프
→ effort 기본값 medium → high 전환 (파이프라인 비용·속도 영향 주의)
→ Dynamic Workflows: Claude Code에서 최대 1,000개 병렬 서브에이전트 (리서치 프리뷰)
→ Messages API: 태스크 중간에 system 메시지 삽입 가능 — 프롬프트 캐시 유지됨
→ 정직성(honesty): 결함 코드 무언급 통과 확률 Opus 4.7 대비 4배 감소
→ Claude Mythos 수주 내 일반 공개 예고


실전 1 — 벤치마크 실제로 뭘 의미하나

벤치마크 숫자만 보면 "또 조금 올랐네" 싶지만, 이번에는 맥락이 다릅니다.

SWE-bench Pro vs Verified 차이

벤치마크 설명 Opus 4.8 Opus 4.7 GPT-5.5

SWE-bench Verified 사람이 검증한 GitHub 이슈 해결 88.6% 87.6% ~80%
SWE-bench Pro 최신 오픈소스 이슈 (오염 없음) 69.2% 64.3% 58.6%
Terminal-Bench 2.1 CLI 에이전트 실제 실행 능력 74.6% 66.1% 78.2%
GDPval-AA Elo 지식업무 종합 1890 1753 1769
USAMO 2026 대회급 수학 96.7% 69.3%

→ SWE-bench Pro는 학습 데이터 오염이 없는 최신 이슈 기준이라 실제 코딩 성능에 가장 가깝습니다. 10.6포인트 차이는 유의미합니다.
→ Terminal-Bench 2.1은 GPT-5.5(78.2%)가 앞섭니다. CLI 중심 자동화 에이전트라면 이 수치 주목 필요.
→ USAMO 27포인트 점프는 수학적 추론의 질적 도약을 의미합니다.

Bridgewater가 말한 것

Anthropic 공식 발표에서 Bridgewater Associates의 평가가 눈에 띕니다. "분석의 입출력에서 문제를 선제적으로 플래그하는 경향 — 다른 모델들은 놓치고 사용자에게 떠넘기던 것을." 이것이 이번 릴리스의 핵심입니다. 숫자가 아니라 모델이 언제 틀렸는지 스스로 말하는지 여부.


실전 2 — effort 기본값 변경: 파이프라인 체크 필수

이번 릴리스에서 가장 조용하게, 가장 크게 영향을 미치는 변경사항입니다.

변경 내용

Opus 4.7 기본: medium
Opus 4.8 기본: high  ← 전환됨

effort 레벨 전체 맵

레벨 사용 시점 토큰 소비

low 분류, 단순 조회, 대용량 처리 최소
medium 일반 작업, 속도·비용 균형 중간
high 복잡한 추론, 코딩 (새 기본값) Opus 4.7 기본과 유사
extra 난이도 높은 에이전트 작업 높음
xhigh 복잡한 코딩, 멀티에이전트 매우 높음
max 최고 품질 필요 최대

Anthropic의 설명: high는 Opus 4.7의 medium 기본값과 토큰 소비가 비슷하지만 성능이 더 좋습니다. 즉, 비용은 유지하면서 품질이 올라가는 구조.

다만 명시적으로 effort를 설정하지 않은 기존 코드는 영향 없음이 아닙니다:

# ❌ Opus 4.7 때 아무 설정 없이 쓰던 코드
response = client.messages.create(
    model="claude-opus-4-7",  # 기본: medium
    max_tokens=4096,
    messages=[...]
)

# ✅ Opus 4.8로 올리면 기본이 high로 바뀜
# 고용량 파이프라인이라면 명시적으로 지정
response = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=4096,
    thinking={"type": "enabled", "budget_tokens": 10000},
    # 비용 민감 파이프라인이라면:
    # effort: "medium"  ← 명시 권장
    messages=[...]
)

마이그레이션 체크포인트
→ effort를 명시적으로 설정하고 있다면 그대로 유지됨
→ 명시 없이 model만 바꾸면 high로 전환됨
→ 대용량 분류·요약 파이프라인은 비용 시뮬레이션 먼저

Claude Code의 ultracode 모드는 xhigh + 멀티에이전트 실행 권한을 함께 부여하는 단축 설정입니다. API의 별도 파라미터가 아니라 Claude Code 전용 UI 메뉴입니다.


실전 3 — Dynamic Workflows: 에이전트 1,000개를 어떻게 씁니까

무엇인가

Claude Code에서 단일 세션 안에 최대 1,000개의 병렬 서브에이전트를 실행할 수 있는 기능입니다. 현재 리서치 프리뷰 — Enterprise, Team, Max 플랜 한정.

기존 방식과의 차이

기존: 단일 에이전트 → 순차 실행 → 느림
에이전트 팀(Agent Teams): 역할 고정 팀 구성 → 구축 비용 높음

Dynamic Workflows: Opus 4.8이 작업을 분석 → 자동으로 서브에이전트 계획 
                   → 병렬 실행 → 결과 취합 → 리포트

실제 사례: Bun 프로젝트 Rust 마이그레이션

Bun의 Jarred Sumner가 Dynamic Workflows를 사용해 약 75만 줄 Rust 코드를 11일 만에 마이그레이션했습니다. 순차 실행이었다면 수개월이 걸릴 작업.

활용 패턴

적합한 작업:
→ 대규모 레포 데드 코드 탐색 (Klarna 사례)
→ 수십만 줄 레거시 리팩토링
→ 멀티 레포 동시 분석
→ 대규모 테스트 스위트 병렬 실행

적합하지 않은 작업:
→ 단일 파일 수정
→ 단순 질의응답
→ 프롬프트 비용이 중요한 고빈도 요청

CyberAgent 리드 엔지니어 Ken Takao의 평가: "단일 서브에이전트와 풀 에이전트 팀 사이의 갭을 채워주는 중간 계층. 긴 작업을 가시성 없이 돌리던 불안감이 사라졌다."


실전 4 — Messages API mid-task system message

에이전트 파이프라인 개발자에게는 벤치마크보다 이게 더 중요할 수 있습니다.

문제: 기존 방식의 불편함

# ❌ 기존 방법 — 권한 변경을 user 메시지로 위장
messages = [
    {"role": "user", "content": "코드 분석 시작해"},
    {"role": "assistant", "content": "..."},
    # 권한을 바꾸려면 user 메시지로 우겨넣어야 했음
    {"role": "user", "content": "[SYSTEM] 이제부터 파일 쓰기 권한 없음"}  
    # → 프롬프트 캐시 깨짐 + 명확하지 않음
]

해결: Opus 4.8 mid-task system message

# ✅ 이제 가능 — user 턴 직후 system 메시지 삽입
messages = [
    {"role": "user", "content": "코드베이스 분석 시작해"},
    {"role": "assistant", "content": "분석 중..."},
    {"role": "user", "content": "다음 단계로"},
    # 여기서 권한·컨텍스트 업데이트
    {"role": "system", "content": "파일 쓰기 권한 제거됨. 읽기만 허용."},
    {"role": "user", "content": "계속해"}
    # 이전 캐시 유지됨 → 비용 절감
]

실전 활용 시나리오

시나리오 업데이트 내용

단계별 권한 축소 "이제 파일 삭제 불가"
토큰 예산 재조정 "남은 예산 2000토큰으로 제한"
환경 컨텍스트 주입 "데이터베이스 연결 끊김, 캐시만 사용"
에러 복구 안내 "이전 단계 실패, 다음 전략으로 전환"

주의: 이전 모델(Opus 4.7 포함)은 messages 배열 안 role: "system"에 400 에러 반환. Opus 4.8 전용 기능.


실전 5 — 4.7에서 4.8 마이그레이션 체크리스트

✅ 체크 1: model 문자열 변경
  "claude-opus-4-7" → "claude-opus-4-8"

✅ 체크 2: effort 명시 여부 확인
  - 명시했으면 그대로
  - 없으면 high로 전환됨 → 비용 시뮬레이션

✅ 체크 3: context-window 베타 헤더 제거
  - 1M 컨텍스트가 이제 기본값, 베타 헤더 불필요

✅ 체크 4: user 턴 위장 system 메시지 리팩토링
  - 롱 에이전트 루프라면 mid-task system message로 교체
  - 캐시 히트율 개선 효과 있음

✅ 체크 5: stop_details 핸들링 추가 (선택)
  - 거절 응답의 카테고리 분류 가능
  - 400 retry path 있으면 제거

마무리

항목 평가

✅ 동일 가격에 SWE-bench Pro +4.9p 바로 업그레이드 이득
✅ 결함 코드 무언급 통과 4배 감소 코드 리뷰 에이전트에 즉각 효과
✅ Fast Mode 3배 저렴해짐 속도 필요한 파이프라인 재검토
✅ Messages API mid-task system message 롱 에이전트 루프 구조 개선
✅ Dynamic Workflows (리서치 프리뷰) 대규모 레포 작업에 실질적 효과
❌ Terminal-Bench 2.1 GPT-5.5에 뒤짐 CLI 에이전트 중심이라면 비교 필요
❌ extended thinking 미지원 Opus 4.7과 동일 제한
❌ Dynamic Workflows Enterprise/Team/Max 한정 Pro 플랜 사용자는 대기

41일 만의 릴리스, 동일 가격, 유의미한 벤치마크 개선. 기존 Opus 4.7 파이프라인이 있다면 마이그레이션 체크리스트 5개 확인 후 바로 전환하는 게 맞습니다. 단, effort 기본값 변경은 비용에 조용히 영향을 줄 수 있으니 고용량 파이프라인은 반드시 먼저 확인하세요.


관련 글

반응형