"Claude가 비행기 예약하고 취업 지원서 제출까지 해줄 수 있다." 2026년 AI 에이전트 광고에 단골로 등장하는 문구다. ClawBench는 이 주장에 실제 데이터로 반박한다. 144개 실제 라이브 웹사이트에서 153개 일상 태스크를 테스트한 결과, 최강 모델인 Claude Sonnet 4.6도 33.3%밖에 못 했다. 기존 벤치마크 65~75%와의 괴리가 무엇을 의미하는지 완전히 해부한다.
핵심 요약
→ ClawBench는 UBC·Vector Institute 연구팀이 개발한 AI 에이전트 평가 프레임워크 — 144개 실제 라이브 플랫폼에서 15개 카테고리, 153개 일상 태스크를 수행시키는 벤치마크
→ 기존 벤치마크(WebArena·OSWorld)에서 65~75%를 찍던 모델들이 ClawBench에서는 최강자 Claude Sonnet 4.6이 33.3%, GPT-5.4가 6.5%에 그침
→ 핵심 차별점: 기존 벤치마크는 정적 HTML 복사본 샌드박스 환경 — ClawBench는 실제 쿠키 배너·JavaScript 렌더링·캡차·멀티스텝 폼이 있는 진짜 웹사이트
→ 쓰기 작업(write-heavy) 특화 — 정보 검색이 아닌 실제 구매 완료·예약·지원서 제출 등 실생활에서 가장 중요한 카테고리를 최초로 평가
→ 5레이어 기록 시스템 — 세션 리플레이·스크린샷·HTTP 트래픽·에이전트 추론 흔적·브라우저 액션 전체 캡처, 실패를 단계별로 추적 가능
→ Air Street Press: "자화자찬 모델 출시가 넘쳐나는 분기에, 다음 세대 에이전트 연구를 고정시켜야 할 벤치마크"
→ 2026년 5월 기준 V2(130개 태스크 추가)까지 출시, 총 283개 태스크·163개 플랫폼으로 확장
1. 기존 벤치마크가 틀린 이유
기존 주요 웹 에이전트 벤치마크들은 정적 HTML 복사본에 고정된 DOM 구조, 인증 없음, 동적 콘텐츠 없음의 샌드박스 환경에서 에이전트를 평가했다 — 이 통제된 환경이 평가를 단순하게 만들지만 실제 웹 인터랙션을 어렵게 만드는 바로 그 복잡성을 제거한다.
# 기존 벤치마크 vs ClawBench 환경 비교
기존 (WebArena / OSWorld / TheAgentCompany)
├── 환경: 샌드박스 (정적 HTML 복사본)
├── DOM: 고정 구조
├── 인증: 없음
├── 동적 콘텐츠: 없음
├── 태스크: 주로 읽기 (정보 검색)
└── 결과: 같은 모델이 65~75% 달성
ClawBench
├── 환경: 실제 라이브 웹사이트 144개
├── DOM: 계속 변하는 동적 구조
├── 인증: 실제 로그인 플로우
├── 동적 콘텐츠: JS 렌더링, 팝업, 배너
├── 태스크: 쓰기 중심 (구매·예약·지원서 제출)
└── 결과: 같은 모델이 6~33%
# 실제 웹사이트에서 에이전트가 만나는 장벽들
1. 쿠키 동의 배너 → 메인 UI 가리고 있음
2. 로그인 페이지 → 세션 유지 필요
3. JavaScript 렌더링 → DOM이 비동기로 로드됨
4. 멀티스텝 폼 → 각 단계가 이전 입력에 의존
5. 동적 가격·재고 → 실시간으로 변하는 데이터
6. CAPTCHA → 봇 감지 차단
7. 타임아웃 → 너무 오래 걸리면 세션 만료
2. ClawBench 설계 — 어떻게 테스트하나
태스크 구성
# 15개 카테고리, 153개 태스크 예시
쇼핑 & 커머스
→ "Amazon에서 특정 사양의 노트북 장바구니에 담고 결제 정보 입력까지"
→ "Etsy에서 맞춤 제작 주문 폼 작성·제출"
여행 & 예약
→ "특정 날짜·좌석 등급으로 항공권 예약 완료"
→ "OpenTable에서 4인 레스토랑 예약"
취업 & 지원
→ "LinkedIn에서 특정 직무 지원서 작성·제출"
→ "Google Forms 채용 설문 완료"
금융 & 결제
→ "온라인 뱅킹 이체 양식 작성"
→ "구독 서비스 결제 정보 업데이트"
교육 & 등록
→ "온라인 강의 플랫폼 수강 신청"
→ "컨퍼런스 참가 등록 폼 제출"
5레이어 기록 시스템
# 실패 원인 추적을 위한 5레이어 데이터 수집
Layer 1: 세션 리플레이 → 에이전트가 본 화면 전체 재생
Layer 2: 스크린샷 → 각 단계 시각적 상태 캡처
Layer 3: HTTP 트래픽 → 실제 서버에 전송된 데이터 검증
Layer 4: 에이전트 추론 → LLM의 내부 판단 과정
Layer 5: 브라우저 액션 → 클릭·입력·스크롤 전체 기록
# 평가 방식 (2단계)
Stage 1 (결정론적): HTTP 인터셉션
→ 최종 제출 요청의 URL·메서드·파라미터가 정답과 일치하는가?
Stage 2 (LLM 판단): Agentic Evaluator
→ 작성 내용이 지시 사항을 충족하는가? (관대/엄격 두 기준)
# 핵심: 단순히 URL만 보는 게 아니라
# 실제로 "출발일·좌석등급·경로"가 올바르게 입력됐는지 검증
3. 충격적인 결과 — 모델별 성적표
7개 프론티어 모델 평가 결과, Claude Sonnet 4.6과 GPT-5.4는 전통적인 웹 벤치마크(OSWorld, WebArena)에서 65~75%를 기록하지만 ClawBench에서는 각각 33.3%와 6.5%에 불과하다.
# ClawBench V1 결과 (153개 태스크)
모델 전통 벤치마크 ClawBench 낙차
──────────────────────────────────────────────────────
Claude Sonnet 4.6 65~75% 33.3% -32~42%p
GPT-5.4 65~75% 6.5% -58~68%p ← 충격
Gemini 3.1 Flash Lite 중간급 낮음
Claude Haiku 4.5 중간급 낮음
Gemini 3 Flash 낮음 더 낮음
GLM-5 (오픈소스) 중간급 낮음
Kimi K2.5 (오픈소스) 중간급 낮음
# GPT-5.4 6.5% = 100개 태스크 중 6개 성공
# Claude Sonnet 4.6 33.3% = 100개 중 33개 성공
# 사람은 동일 태스크를 30분 이내에 거의 100% 완료
4. 왜 실패하는가 — 주요 실패 패턴
실제 배포 환경에서 실패는 극적으로 보이지 않는다. 놓친 단계, 끊긴 맥락, 잘못된 핸드오프, 미묘한 라우팅 실수처럼 보인다 — 이것이 바로 에이전트 벤치마크가 지금 더 중요한 이유다.
# ClawBench에서 발견된 주요 실패 패턴
1. 오버레이 처리 실패 (가장 빈번)
쿠키 배너·모달이 목표 요소를 가림
→ 에이전트가 인식 못 하고 클릭 시도 → 실패
→ 실제 사례: "결제하기" 버튼이 쿠키 배너 뒤에 숨어있음
2. 멀티스텝 상태 추적 실패
3~5단계 폼에서 이전 입력값이 다음 단계에 영향
→ 에이전트가 중간 단계 건너뜀 → 최종 검증 실패
→ 실제 사례: 날짜 선택 → 좌석 선택 → 승객 정보 순서 꼬임
3. 동적 콘텐츠 오인식
JavaScript로 늦게 로드되는 요소를
→ 에이전트가 "없다"고 판단 → 엉뚱한 요소 클릭
→ 실제 사례: 자동완성 드롭다운이 로드 전에 클릭
4. 폼 유효성 검사 충돌
실시간 입력 검증에서 에러 발생
→ 에이전트가 에러 메시지 인식 못 하고 그냥 제출 시도
→ 실제 사례: 전화번호 형식 오류를 무시하고 다음 단계 진행
5. 인증 세션 만료
장시간 태스크에서 로그인 세션 만료
→ 에이전트가 세션 만료를 인식 못 하고 계속 진행
→ 실제 사례: 15분 후 자동 로그아웃됐는데 모르고 결제 시도
6. 문서 참조 실패
"첨부 파일의 정보를 폼에 입력해줘" 류 태스크
→ 문서 내용과 폼 필드 매핑 실패
→ 실제 사례: 이력서 PDF에서 경력 기간을 잘못 파싱
5. 개발자가 ClawBench에서 배워야 할 것
# ClawBench 결과가 에이전트 개발에 주는 실전 교훈
교훈 1: 오버레이 먼저 처리하는 로직 필수
→ 모든 에이전트 태스크 시작 전
"페이지에 팝업·배너가 있으면 먼저 닫아"를
시스템 프롬프트에 기본으로 포함
교훈 2: 단계별 상태 검증
→ 멀티스텝 폼은 각 단계 완료 후 현재 상태 스냅샷 확인
→ 예상 상태와 다르면 이전 단계로 되돌아가는 로직
교훈 3: 동적 콘텐츠 대기 전략
→ 클릭 전 반드시 요소가 인터랙션 가능한 상태인지 확인
→ waitForSelector / 접근성 트리 상태 체크 필수
교훈 4: 에러 메시지 명시적 감지
→ 제출 후 에러 메시지 패턴을 적극적으로 스캔
→ 에러 발견 시 수정 후 재시도 루프
교훈 5: 100% 자율보다 부분 자율 + 사람 개입
→ ClawBench 33%는 "도움이 안 된다"는 뜻이 아님
→ 33% 자율 완료 + 나머지는 사람에게 넘기는 설계가 현실적
6. ClawBench가 업계에 던지는 메시지
# AI 에이전트 과장 광고 vs 현실
과장 광고 (2026년 마케팅)
"AI 에이전트가 비행기 예약, 쇼핑, 취업 지원까지 자동화"
→ SWE-bench 93%, GAIA 80% 인용
ClawBench 현실
"실제 웹사이트에서 일상 태스크 33% 완료"
→ 사람이 30분이면 하는 일을 AI가 3개 중 1개만 성공
# 벤치마크 선택의 정치학
→ 기업들이 높은 점수 나오는 샌드박스 벤치마크만 공개
→ 실제 프로덕션 환경 성능은 공개 안 함
→ ClawBench는 이 불투명성에 대한 학계의 반격
# 에이전트 프로덕션 배포 시 현실적 기대값
코딩 에이전트 (SWE-bench): ~90% (정제된 환경)
문서 처리: ~70% (구조화된 입력)
웹 자동화 (ClawBench): ~33% (실제 동적 환경)
완전 자율 일상 비서: ~10~20% (현재 기술 수준)
✅ 결론
✅ ClawBench는 2026년 가장 현실적인 AI 에이전트 벤치마크 — 실제 웹사이트, 실제 쓰기 작업
✅ "샌드박스에서 잘 됐으니 실환경도 잘 되겠지"는 틀린 가정임을 데이터로 증명
✅ 실패 패턴이 구체적 — 오버레이·동적 콘텐츠·멀티스텝 상태 추적이 핵심 장벽
✅ 에이전트 개발자에게 실질적인 개선 방향 제시
❌ 33%를 "에이전트는 쓸모없다"로 해석하면 오독 — 부분 자율화만으로도 실질적 가치
❌ 현재 AI 에이전트를 "완전 자율 일상 비서"로 배포하면 3개 중 2개는 실패
❌ 벤치마크 점수만 보고 에이전트를 선택하면 프로덕션에서 낭패
'AI Agent' 카테고리의 다른 글
| Mem0 가이드 2편: 프로덕션 설계와 토큰 최적화 (0) | 2026.05.27 |
|---|---|
| Mem0 개념과 기본 사용법 완전 가이드 1편 — AI 에이전트에게 기억을 심어라 (0) | 2026.05.27 |
| 노트북 꺼도 AI가 일한다 — Gemini Spark 완전 분석과 Claude Cowork·ChatGPT Agent 비교 (0) | 2026.05.27 |
| 멀티에이전트 오케스트레이션 패턴 5가지 — 언제 무엇을 쓸 것인가 (0) | 2026.05.26 |
| LLM as a Judge 완전정리 7편 — 판사가 절대 못 하는 것들: 한계와 대안 (0) | 2026.05.26 |