AI 에이전트를 만들고 나면 이런 질문이 생겨요."이 에이전트가 잘 동작하는 건지 어떻게 알지? 그냥 써보는 것 말고 제대로 측정하는 방법이 있나?"일반 소프트웨어는 테스트가 간단해요. 같은 입력에 같은 출력이 나오면 패스, 다르면 실패. 근데 AI 에이전트는 비결정적이고, 여러 단계를 거치고, 툴을 호출하고, 컨텍스트를 누적해요. 전통적인 테스트 방식이 안 통해요.이번 글에서는 에이전트 평가가 왜 어려운지, 무엇을 측정해야 하는지, 어떤 방법으로 측정하는지 정리해 드릴게요.왜 에이전트 평가는 어려운가일반 LLM 평가와 에이전트 평가의 차이는 이거예요.일반 LLM 평가프롬프트 입력 → 답변 출력 → 정답과 비교에이전트 평가목표 입력 → 툴 호출 결정 (올바른 툴인가?) → 툴 실행 (파라미터가 맞는가..