'LLM Judge' 태그의 글 목록

LLM-as-Judge 완전 가이드 2편 — 편향 제거부터 Jury 패턴까지, 프로덕션에서 살아남는 법

기본 개념은 알겠는데, 실제로 쓰면 점수가 이상합니다. 짧은 답변이 낮게 나오고, 순서만 바꿔도 결과가 뒤집힙니다. 이게 왜 일어나는지, 어떻게 막는지 파고들어 봅니다.📌 핵심 요약→ LLM Judge의 인간 동의율 85% — 하지만 편향이 있으면 그 85%가 틀린 방향으로 수렴→ 주요 편향 4가지: Position / Verbosity / Self-preference / Preference Leakage→ G-Eval: 루브릭 기반 채점, CoT로 신뢰도 10~15% 향상→ DAG 방식: 비결정적 G-Eval의 한계를 구조화된 평가 그래프로 보완→ LLM Jury: 여러 모델을 배심원단처럼 운용, 단일 Judge 편향 희석→ Preference Leakage: Judge와 피평가 모델이 같은 계열이면..

AI Agent 2026.05.22

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

CELL AI DEVLOG

LLM Judge 1

티스토리툴바