"Claude가 비행기 예약하고 취업 지원서 제출까지 해줄 수 있다." 2026년 AI 에이전트 광고에 단골로 등장하는 문구다. ClawBench는 이 주장에 실제 데이터로 반박한다. 144개 실제 라이브 웹사이트에서 153개 일상 태스크를 테스트한 결과, 최강 모델인 Claude Sonnet 4.6도 33.3%밖에 못 했다. 기존 벤치마크 65~75%와의 괴리가 무엇을 의미하는지 완전히 해부한다.핵심 요약→ ClawBench는 UBC·Vector Institute 연구팀이 개발한 AI 에이전트 평가 프레임워크 — 144개 실제 라이브 플랫폼에서 15개 카테고리, 153개 일상 태스크를 수행시키는 벤치마크→ 기존 벤치마크(WebArena·OSWorld)에서 65~75%를 찍던 모델들이 ClawBench에..