'ClawBench' 태그의 글 목록

AI 에이전트는 아직 일상 업무를 못 한다 — ClawBench 완전 분석

"Claude가 비행기 예약하고 취업 지원서 제출까지 해줄 수 있다." 2026년 AI 에이전트 광고에 단골로 등장하는 문구다. ClawBench는 이 주장에 실제 데이터로 반박한다. 144개 실제 라이브 웹사이트에서 153개 일상 태스크를 테스트한 결과, 최강 모델인 Claude Sonnet 4.6도 33.3%밖에 못 했다. 기존 벤치마크 65~75%와의 괴리가 무엇을 의미하는지 완전히 해부한다.핵심 요약→ ClawBench는 UBC·Vector Institute 연구팀이 개발한 AI 에이전트 평가 프레임워크 — 144개 실제 라이브 플랫폼에서 15개 카테고리, 153개 일상 태스크를 수행시키는 벤치마크→ 기존 벤치마크(WebArena·OSWorld)에서 65~75%를 찍던 모델들이 ClawBench에..

AI Agent 2026.05.27

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

CELL AI DEVLOG

ClawBench 1

티스토리툴바