유닛 테스트는 결정론적입니다. 같은 입력 → 같은 출력. LLM 에이전트는 다릅니다. 같은 입력 → 확률적으로 다른 출력. 그래서 "테스트"가 아닌 "Eval"이 필요하고, Pydantic Evals는 그 Eval을 코드로 다루는 방법을 제시합니다.핵심 요약 → Pydantic Evals = pydantic-evals 별도 패키지 (2026.05.21 최신 릴리즈, Production/Stable) → 핵심 구조: Dataset → Cases → Experiment → Evaluators → 3가지 평가자 레이어: 결정론적(정확 매치·정규식) + LLM-as-Judge + 스팬 기반 → 스팬 기반 평가(HasMatchingSpan): "최종 출력이 아닌 내부 동작을 평가" — 에이전트 Eval의 핵심 →..