반응형

2026/05 165

LLM 배치 처리 실전 — Anthropic Message Batches API로 비용 50% 절감

사용자가 화면을 보며 기다리나요? 동기 API. 사용자가 제출하고 다른 일을 하나요? 배치 API. 이 한 줄 판단으로 비용이 절반이 됩니다.핵심 요약 → Message Batches API: 최대 100,000 요청을 단일 배치로 제출, 24시간 내 결과 → 비용: 입력+출력 토큰 모두 표준 가격의 정확히 50% — 요청 수와 무관, 10개도 50% → 출력 토큰 한도: 동기 API 대비 대폭 확대 (beta 헤더로 최대 300K/요청) → 표준 rate limit 별도 — 배치가 일반 API 한도에 영향 없음 → 2026년 3월: output-300k-2026-03-24 베타 헤더로 300K 출력 토큰 지원 → 실전 사례: 782 파일 처리 → 8 배치 → 25분 (100% 성공률) → 한계: 진행 ..

Claude 2026.05.29

Speculative Decoding 실전 — Draft 모델 + 검증 모델 조합으로 추론 속도 2~3배 높이기

LLM 추론이 느린 이유는 연산이 부족해서가 아닙니다. GPU가 다음 가중치 로딩을 기다리는 동안 연산 유닛이 놀고 있습니다. Speculative Decoding은 그 유휴 시간을 채웁니다.핵심 요약 → Speculative Decoding: 소형 Draft 모델이 토큰 K개 예측 → 대형 Target 모델이 한 번에 검증 → 출력 품질 변화 없음: 수락된 토큰은 Target 모델이 직접 생성한 것과 동일한 분포 → 속도 향상: 수락률(α) 0.6~0.8 구간에서 실제 2~3배 (EAGLE3 기준 최대 4.48배) → 2026년 최신: EAGLE3 = 표준, MTP (DeepSeek V4 네이티브), Medusa (단순 설정) → vLLM + EAGLE3: --speculative-model 파라미터 ..

LLM 2026.05.29

Pydantic Evals 실전 — 타입 안전 LLM 평가 데이터셋 구축과 프로덕션 회귀 탐지

유닛 테스트는 결정론적입니다. 같은 입력 → 같은 출력. LLM 에이전트는 다릅니다. 같은 입력 → 확률적으로 다른 출력. 그래서 "테스트"가 아닌 "Eval"이 필요하고, Pydantic Evals는 그 Eval을 코드로 다루는 방법을 제시합니다.핵심 요약 → Pydantic Evals = pydantic-evals 별도 패키지 (2026.05.21 최신 릴리즈, Production/Stable) → 핵심 구조: Dataset → Cases → Experiment → Evaluators → 3가지 평가자 레이어: 결정론적(정확 매치·정규식) + LLM-as-Judge + 스팬 기반 → 스팬 기반 평가(HasMatchingSpan): "최종 출력이 아닌 내부 동작을 평가" — 에이전트 Eval의 핵심 →..

AI Agent 2026.05.29

LangGraph vs PydanticAI vs CrewAI vs Google ADK — 2026년 에이전트 프레임워크 4파전

47개 행짜리 비교 스프레드시트를 뒤져봤자 결국 "it depends"로 끝납니다. 실제로 중요한 건 프레임워크가 아니라 여러분 팀이 풀려는 문제입니다. 그 문제부터 정확히 짚고 코드로 비교합니다.핵심 요약 → LangGraph (25K stars, 34.5M 월간 다운로드): 상태 머신 기반, 최고 통제력, 가장 가파른 학습 곡선 → PydanticAI (16.8K stars): 타입 안전 + DI, 단순 에이전트에 FastAPI 느낌, 멀티에이전트 성숙도 낮음 → CrewAI (47K stars): 역할 기반 가장 빠른 프로토타입, 내장 메모리, 복잡해지면 디버깅 어려움 → Google ADK: A2A·MCP·AG-UI 프로토콜 선도, GCP 네이티브, 커뮤니티 가장 작음 → 월간 검색량: LangG..

AI Agent 2026.05.29

PydanticAI 완전가이드 2026 — FastAPI 철학의 에이전트 프레임워크

FastAPI가 웹 개발에 가져온 "타입 안전 + DI + 자동 문서화"의 느낌을 LLM 에이전트에 그대로 가져오려는 시도입니다. PydanticAI는 그것이 무엇인지 보여줍니다.핵심 요약 → PydanticAI = Pydantic 팀이 만든 에이전트 프레임워크, v1.0 2025년 9월 → v1.70+ 2026년 3월 → 핵심 철학: "FastAPI feeling to GenAI" — 타입 안전, DI, IDE 자동완성 → 4대 핵심: 타입 안전 출력 + 의존성 주입(RunContext) + Pydantic Evals + Logfire → 75+ 프로바이더 지원: OpenAI·Anthropic·Gemini·Ollama·DeepSeek·Grok 등 → MCP 네이티브 지원 — MCPServerStdio로..

AI Agent 2026.05.29

AI 코딩 도구 Eval 설계 — Claude Code·Cursor·Copilot 팀 도입 전 성능 측정 방법론

"SWE-Bench 1위 모델이 우리 팀에도 최고"라는 보장은 없습니다. 벤치마크는 특정 조건에서 측정한 수치입니다. 여러분 팀의 코드베이스, 언어 스택, 워크플로우에서 어떤 도구가 실제로 시간을 절감하는지는 직접 측정해야 합니다.핵심 요약 → 2026년 3대 도구: Claude Code (SWE-Bench 80.8% 1위), Cursor (IDE 경험 1위), Copilot (보급률 1위) → 팀 도입 전 Eval이 필요한 이유: 벤치마크 순위 ≠ 우리 팀 생산성 향상 → Eval 3단계: 태스크 샘플 설계 → 블라인드 측정 → TCO 계산 → 측정 지표: 완료율, 수정 횟수, 토큰 비용, 개발자 만족도, 버그 도입율 → 2026년 실제 채택 패턴: Cursor (일상 편집) + Claude Code ..

AI 개발 2026.05.29

로컬 코딩 에이전트 구축 — Qwen3-Coder + OpenCode 완전 설정 가이드

API 키 없이, 코드가 외부로 나가지 않고, 월 구독료 없이. Qwen3-Coder + OpenCode 조합은 Claude Code의 로컬 대안 중 현재 가장 현실적인 선택입니다.핵심 요약 → OpenCode = 터미널 기반 오픈소스 코딩 에이전트, Claude Code와 동일한 UX, 75+ 프로바이더 지원 → Qwen3-Coder-30B-A3B: 총 30B 파라미터, 활성 3B — RTX 4090 1대로 실행 가능 → Qwen3-Coder-Next (80B/3B): 2026년 2월 출시, SWE-Bench Verified 70.6% → LM Studio: 로컬 추론 서버, OpenAI 호환 API → OpenCode가 그대로 붙음 → Qwen Code: Qwen 공식 오픈소스 에이전트 (Claude..

AI 개발 2026.05.29

OpenTelemetry로 LLM 에이전트 추적 — 스팬 계측, 토큰 비용 추적, 프로덕션 디버깅

"이 에이전트가 왜 $3.70을 썼나?" 프로덕션에서 이 질문에 답할 수 없다면 에이전트를 배포할 준비가 안 된 겁니다. OpenTelemetry는 그 답을 구조화합니다.핵심 요약 → 에이전트 옵저버빌리티 ≠ 일반 APM — 비결정적 실행, 토큰 기반 비용, 무결한 실패가 다름 → OpenTelemetry GenAI Semantic Conventions: gen_ai.* 표준 속성 (2026년 초 experimental → stable 진행 중) → 자동 계측: AnthropicInstrumentor().instrument() — 코드 변경 없이 모든 API 호출 자동 추적 → 수동 계측: 에이전트 루프·툴 호출·재시도 스텝을 명시적 스팬으로 감쌈 → 핵심 속성: gen_ai.usage.input_tok..

AI Agent 2026.05.29

Instructor 라이브러리로 구조화 출력 실전 2026 — LLM에서 신뢰할 수 있는 JSON을 뽑는 법

LLM에게 JSON으로 응답하라고 프롬프트를 쓰면 됩니다. 대부분 잘 됩니다. 문제는 나머지 5~10%입니다. Markdown 펜스가 붙거나, 필드가 빠지거나, 타입이 틀리거나, 음수가 와야 하는데 양수가 옵니다. Instructor는 그 나머지 5~10%를 자동으로 잡아냅니다.핵심 요약 → Instructor = Pydantic 모델 기반 LLM 구조화 출력 라이브러리 (월 300만 다운로드, GitHub 11k★) → 핵심 기능: 스키마 강제 + 자동 검증 + 검증 실패 시 자동 재시도 → from_provider("provider/model") — 15개+ 프로바이더를 동일 인터페이스로 → 지원: OpenAI·Claude·Gemini·Ollama·DeepSeek·Groq 등 → 검증 실패 시 에러 ..

AI Agent 2026.05.29

Claude Code Hooks 완전가이드 — 프롬프트 요청이 아닌 보장된 실행

Claude에게 "파일 수정 후 포맷해줘"라고 프롬프트로 요청하는 것과 Hooks로 PostToolUse에 포매터를 걸어두는 것은 다릅니다. 전자는 요청입니다. 후자는 보장입니다. 핵심 요약 → Hooks = 에이전트 루프 특정 시점에 자동 실행되는 셸 커맨드·HTTP·프롬프트·에이전트 → 2026년 5월 기준 v2.1.141+ → 27개 라이프사이클 이벤트, 5가지 핸들러 타입 → 가장 중요한 이벤트: PreToolUse (실행 전 차단), PostToolUse (실행 후 반응) → 핵심 exit code: 0 = 계속, 2 = 차단 (exit 1은 차단 아님 — 가장 흔한 실수) → stdin으로 JSON 컨텍스트 수신 → stdout/stderr + exit code로 Claude에게 피드백 → 설..

Claude 2026.05.29
반응형