인공지능 모델을 개발하거나 도입할 때, 우리 모델이 얼마나 일을 잘하는지 확인하는 과정은 정말 중요합니다. 단순히 "좋다"라고 말하는 대신, 정확한 기준을 가지고 평가해야 하거든요. 오늘은 특정 Task 수행 능력을 수동으로 평가하는 구체적인 방법을 소개해 드릴게요🧭 1. 평가 목적 정의하기🔧 예시: "법률 질문 요약", "장문의 보고서 요약" 등평가를 정밀하게 하려면, 여러 가지를 한꺼번에 하지 않고 단일 작업이나 특정 도메인에만 집중하는 것이 좋습니다.먼저 무엇을 넣을지(입력 예시)와 어떤 대답이 나오길 바라는지(출력 기대치)를 미리 정합니다.예시:입력: CCTV 이벤트 로그출력: 사람이 보기 쉽게 요약된 자연어 보고서🛠️ 2. 평가 데이터셋 구성하기10개에서 50개 정도의 아주 특별한 테스트 ..