'helm' 태그의 글 목록

LLM 성능 평가는 어떻게 할까? MT-Bench부터 HELM까지

인공지능 모델을 개발하거나 튜닝한 후, 가장 고민되는 지점은 바로 **"이 모델이 정말 성능이 좋아졌는가?"**를 객관적으로 측정하는 것입니다. 단순한 정확도를 넘어 실제 대화 능력과 안전성을 측정하는 대표적인 LLM(대형 언어 모델) 벤치마크 도구들을 소개합니다.1. 대화의 질을 판별하는 'MT-Bench' (Multi-Turn Bench)MT-Bench는 LMSYS(홍콩대 및 UC 버클리 연구진)에서 개발한 다중턴 대화 기반 평가 시스템입니다. 단순히 한 번의 질문과 답변으로 끝내는 것이 아니라, 꼬리에 꼬리를 무는 대화 속에서 모델이 얼마나 맥락을 잘 유지하는지 확인합니다.✅ 주요 평가 방식GPT-4 기반 상대 평가: 사람이 일일이 채점하는 대신, 성능이 검증된 GPT-4가 심판이 되어 후보 모델들..

LLM 2026.03.24

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

CELL AI DEVLOG

helm 1

티스토리툴바