'Pydantic Evals' 태그의 글 목록

Pydantic Evals 실전 — 타입 안전 LLM 평가 데이터셋 구축과 프로덕션 회귀 탐지

유닛 테스트는 결정론적입니다. 같은 입력 → 같은 출력. LLM 에이전트는 다릅니다. 같은 입력 → 확률적으로 다른 출력. 그래서 "테스트"가 아닌 "Eval"이 필요하고, Pydantic Evals는 그 Eval을 코드로 다루는 방법을 제시합니다.핵심 요약 → Pydantic Evals = pydantic-evals 별도 패키지 (2026.05.21 최신 릴리즈, Production/Stable) → 핵심 구조: Dataset → Cases → Experiment → Evaluators → 3가지 평가자 레이어: 결정론적(정확 매치·정규식) + LLM-as-Judge + 스팬 기반 → 스팬 기반 평가(HasMatchingSpan): "최종 출력이 아닌 내부 동작을 평가" — 에이전트 Eval의 핵심 →..

AI Agent 2026.05.29

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

CELL AI DEVLOG

Pydantic Evals 1

티스토리툴바