기본 개념은 알겠는데, 실제로 쓰면 점수가 이상합니다. 짧은 답변이 낮게 나오고, 순서만 바꿔도 결과가 뒤집힙니다. 이게 왜 일어나는지, 어떻게 막는지 파고들어 봅니다.📌 핵심 요약→ LLM Judge의 인간 동의율 85% — 하지만 편향이 있으면 그 85%가 틀린 방향으로 수렴→ 주요 편향 4가지: Position / Verbosity / Self-preference / Preference Leakage→ G-Eval: 루브릭 기반 채점, CoT로 신뢰도 10~15% 향상→ DAG 방식: 비결정적 G-Eval의 한계를 구조화된 평가 그래프로 보완→ LLM Jury: 여러 모델을 배심원단처럼 운용, 단일 Judge 편향 희석→ Preference Leakage: Judge와 피평가 모델이 같은 계열이면..