LLM-as-Judge 완전 가이드 — AI로 AI 출력을 자동 평가하는 법
LLM 응답 품질을 사람이 일일이 평가하고 있습니까. 1000개 응답을 사람이 보면 3일이 걸립니다. LLM-as-Judge는 같은 작업을 3분에 끝냅니다.[핵심 요약]→ 정체: LLM이 다른 LLM의 응답을 자동으로 평가하는 패턴→ 용도: 응답 품질 평가, A/B 테스트, 회귀 테스트, 프로덕션 모니터링→ 패턴: 단일 평가, 쌍 비교, 참조 기반, 루브릭 기반→ 도구: Claude API + 구조화 출력, LangSmith, Ragas→ 신뢰도: 사람 평가와 80~90% 일치 (단, 편향 있음)→ 비용: 평가당 $0.001~0.01 수준→ 주의: 자기 편향, 위치 편향 → 설계로 보완 필요 LLM-as-Judge가 왜 필요한가AI 서비스 응답 품질 평가 방법 비교:1. 사람 평가:→ 정확도: 가장 높음..