Claude Opus 4.8 완전 분석 — SWE-Bench Pro 69.2%, GPT-5.5 제치고 코딩 1위 등극

Claude

Claude Opus 4.8 완전 분석 — SWE-Bench Pro 69.2%, GPT-5.5 제치고 코딩 1위 등극

cell-devlog 2026. 6. 4. 10:18

Anthropic이 Opus 4.8을 공개하면서 스스로 "겸손한 개선"이라고 했습니다. 그런데 뜯어보면 이야기가 다릅니다.

핵심 요약

→ Claude Opus 4.8, 2026년 5월 28일 출시 — Opus 4.7 대비 6주 만의 업데이트
→ 가격 동일: 입력 $5 / 출력 $25 (백만 토큰당)
→ SWE-Bench Pro 69.2% — Opus 4.7(64.3%), GPT-5.5(58.6%), Gemini 3.1 Pro(54.2%) 모두 초과
→ SWE-Bench Verified 88.6% — 전작 대비 1.0%p 상승
→ Terminal-Bench 2.1 74.6% — 전작 대비 8.5%p 급등, 가장 큰 폭 개선
→ 핵심 변화는 벤치마크가 아닌 정직성 — 코드 결함을 표시 없이 통과시키는 확률 전작 대비 4배 감소
→ Dynamic Workflows 신기능: Claude Code에서 수백 개 병렬 서브에이전트 실행 가능 (리서치 프리뷰)
→ Fast Mode 가격 3배 저렴 — 2.5× 속도로 실행, 이전 대비 비용 1/3
→ Effort Control 신기능: claude.ai에서 태스크 난이도에 따라 모델 노력 수동 조절 가능
→ 정렬(alignment) 평가에서 비정렬 행동이 Opus 4.7보다 현저히 낮고, Claude Mythos Preview 수준에 근접

실전 1 — 벤치마크 수치 완전 정리

벤치마크 Opus 4.8 Opus 4.7 GPT-5.5 Gemini 3.1 Pro

SWE-Bench Pro	69.2%	64.3%	58.6%	54.2%
SWE-Bench Verified	88.6%	87.6%	미공개	미공개
Terminal-Bench 2.1	74.6%	66.1%	미공개	미공개
Online-Mind2Web	84%	미공개	낮음	미공개
Legal Agent Benchmark	1위 (10% 올패스 첫 돌파)	—	—	—

SWE-Bench Pro가 중요한 이유:

SWE-Bench Verified가 "GitHub 이슈 해결 가능한가"를 측정한다면, SWE-Bench Pro는 실제 프로덕션 수준의 복잡한 멀티파일 버그 수정 능력을 측정합니다. 4.8이 69.2%를 기록했다는 건, 현재 공개 모델 중 가장 복잡한 실전 코딩 태스크를 가장 잘 처리한다는 뜻이에요.

Terminal-Bench 2.1이 눈에 띄는 이유:

8.5%p 상승은 이번 업데이트에서 가장 큰 폭입니다. 터미널 환경에서의 자율 실행 능력 — 파일 시스템 탐색, CLI 도구 활용, 환경 설정 — 이 크게 향상됐다는 뜻이에요. Claude Code가 혼자 돌아가는 시간이 길어질수록 이 지표가 직접적으로 체감됩니다.

실전 2 — 정직성 향상: 수치보다 중요한 변화

Anthropic이 이번 업데이트에서 가장 강조한 건 벤치마크가 아닙니다. "정직성(honesty)" 입니다.

구체적으로 무슨 뜻인가:

AI 모델의 고질적 문제 중 하나는 자기가 작성한 코드에 버그가 있어도 "완료"라고 보고한다는 겁니다. 특히 에이전트 태스크처럼 사람이 중간에 확인하지 않는 워크플로우에서 이 문제가 치명적이에요.

→ Opus 4.8은 코드 결함을 표시 없이 통과시킬 확률이 Opus 4.7 대비 4배 감소
→ 계획이 부실하다고 판단하면 그냥 진행하지 않고 반박하고 재확인 요청
→ 불확실할 때 확신인 척하지 않고 불확실성을 명시

실제 현장 피드백(Anthropic 공식 발표):

"Claude Opus 4.8은 올바른 질문을 하고, 자신의 실수를 포착하고, 계획이 타당하지 않을 때 반박하며, 대규모 변경 전에 복잡한 멀티서비스 탐색에서 자신감을 쌓습니다." — Tom Pritchard, Staff Engineer

"Opus 4.8이 입력과 출력의 문제를 사전에 표시하는 경향이 가장 큰 차별점이었습니다. 다른 모델들은 이를 놓치고 사용자가 잡도록 남겨뒀습니다." — Michael Ran, Senior Investment Associate

실전 3 — Dynamic Workflows: 에이전트 실행의 패러다임 변화

가장 야심 찬 신기능입니다. 현재 리서치 프리뷰 단계.

기존 Claude Code 한계:

기존 방식:
Claude Code → 태스크 A 완료 → 태스크 B 시작 → 태스크 C 시작
               (순차 실행, 각 태스크가 끝나야 다음 시작)

문제: 수백 개 파일을 분석해야 하는 대규모 코드베이스 작업에서
     시간이 선형으로 증가

Dynamic Workflows:

새로운 방식:
Claude Code → 태스크 A + 태스크 B + 태스크 C ... 동시에 병렬 실행
               (수백 개 서브에이전트 한 세션에서 동시 스케줄링)

→ 대규모 코드베이스 리팩토링, 전체 테스트 스위트 동시 실행,
  멀티 레포지토리 분석 등에서 속도 비약적 향상

실제 사용 예시:

# Dynamic Workflows 활성화 (리서치 프리뷰)
# Claude Code에서 대규모 리팩토링 요청

"이 모노레포 전체에서 deprecated API 사용 패턴 찾아서
 모두 새 인터페이스로 마이그레이션해줘"

# → Claude가 자동으로 파일별 서브에이전트 생성
# → 수십~수백 개 파일 병렬 분석·수정
# → 각 서브에이전트가 충돌 없이 독립 실행
# → 전체 완료 후 통합 보고

❌ 주의: 아직 리서치 프리뷰 단계 — 프로덕션 크리티컬 작업에 바로 쓰기엔 아직 이르고, 검증 필요

실전 4 — Fast Mode와 Effort Control: 비용·속도 전략

Fast Mode 가격 3배 인하:

Opus 4.8 Fast Mode는 2.5배 속도로 동작하면서 이전 모델 대비 비용이 1/3로 내려갔습니다.

비용 비교:
Opus 4.7 Fast Mode: 기준 X
Opus 4.8 Fast Mode: 기준 X / 3

→ 처리량이 많은 에이전트 파이프라인에서 비용 구조 개선 효과 큼
→ 배치 처리, 대규모 코드 스캔 등에서 활용 가치 높음

Effort Control (claude.ai):

태스크 복잡도에 따라 모델이 쏟는 노력(=사고 토큰)을 수동 조절하는 기능입니다.

낮음  → 빠른 응답, 간단한 태스크용
보통  → 기본값
높음  → 느리지만 복잡한 추론·분석에 최적

→ API에서도 effort 파라미터로 제어 가능
→ 비용 최적화 전략: 단순 태스크는 낮음, 복잡한 추론은 높음으로 라우팅

import anthropic

client = anthropic.Anthropic()

# Effort Control API 활용 예시
response = client.messages.create(
    model="claude-opus-4-8-20260528",
    max_tokens=8096,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000  # 낮은 effort: 2000 / 높은 effort: 30000+
    },
    messages=[{
        "role": "user",
        "content": "이 코드베이스의 성능 병목을 찾아서 최적화 방안 제시해줘"
    }]
)

실전 5 — Opus 4.7 대비 실제 달라진 것, 달라지지 않은 것

달라진 것:

✅ SWE-Bench Pro 64.3% → 69.2% (4.9%p 상승)
✅ Terminal-Bench 66.1% → 74.6% (8.5%p 상승)
✅ 코드 결함 통과 확률 4배 감소
✅ Dynamic Workflows 신기능 (리서치 프리뷰)
✅ Fast Mode 비용 1/3로 인하
✅ Effort Control 추가
✅ Opus 4.7에 있던 코멘트 과다 출력·툴 호출 오류 수정 (Devin CEO 언급)
✅ 비정렬 행동 지표 현저히 감소 — Mythos Preview 수준에 근접

달라지지 않은 것:

→ 가격: 입력 $5 / 출력 $25 그대로
→ 컨텍스트 윈도우: 200K 유지
→ 모델 포지셔닝: Sonnet·Haiku 위, Mythos 아래 그대로

실전 6 — Opus 4.8 vs GPT-5.5 핵심 비교

항목 Claude Opus 4.8 GPT-5.5

SWE-Bench Pro	69.2%	58.6%
에이전트 코딩	Claude Code + Dynamic Workflows	Codex
정직성 개선	핵심 차별화 포인트	언급 없음
컨텍스트	200K	100K (Codex는 1M)
입력 가격	$5/1M 토큰	$10/1M 토큰 (추정)
출력 가격	$25/1M 토큰	$30/1M 토큰 (추정)
강점	에이전트 신뢰성, 정직성, 비용 효율	소비자 생태계, ChatGPT 브랜드

✅ 지금 Opus 4.8로 전환할 이유 / ❌ 주의할 것

✅ 전환 권장 ❌ 주의

가격 동일 — 비용 부담 없는 업그레이드	Dynamic Workflows는 리서치 프리뷰 — 프로덕션 직접 투입 전 충분한 테스트
에이전트 태스크에서 정직성 크게 향상	Opus 4.7 대비 코멘트 스타일 등 소소한 동작 차이 있을 수 있음
Terminal-Bench 8.5%p 향상 — 장기 실행 에이전트에 직접 체감	아직 Mythos Preview와는 성능 격차 있음
Fast Mode 비용 1/3 — 대규모 파이프라인 비용 절감

'Claude' 카테고리의 다른 글

AI가 엑셀을 대신 써준다? Claude in Excel 실제로 써봤다 (0)	2026.06.05
Claude Mythos와 Project Glasswing 완전 분석 — 공개 거부된 AI가 취약점 1만 개를 찾아낸 이유 (0)	2026.06.04
Claude Opus 4.8 Effort Control 완전 가이드 — low/medium/high/xhigh/max 언제 쓰는가 (0)	2026.06.01
Claude Opus 4.8 Mid-conversation System Messages 실전 — 에이전트 루프 중간에 지시 바꾸는 법 (0)	2026.06.01
Claude Code Dynamic Workflows 실전 — 병렬 서브에이전트로 대규모 리팩토링 하는 법 (0)	2026.06.01

현재글Claude Opus 4.8 완전 분석 — SWE-Bench Pro 69.2%, GPT-5.5 제치고 코딩 1위 등극

CELL AI DEVLOG

AI 에이전트 만듭니다

github copilot, AI 에이전트, openai codex, 멀티에이전트, 오픈소스llm, 클로드코드, 바이브코딩, Gemini, LLM서빙, LLM, AWS Kiro, MCP, LLM as a judge, Rag, AI agent, Gemini 3.5 Flash, Claude, Claude Opus 4.8, claude code, SGLANG,

Today :
Yesterday :

CELL AI DEVLOG