반응형

2026/05/19 24

LiteLLM 완전 가이드 4편 — LangChain·LangGraph 통합, 가드레일, Prometheus 모니터링, 프로덕션 운영

3편에서 Proxy 서버를 띄웠습니다. 4편은 그 위에 쌓는 것들입니다. LangChain·LangGraph가 Proxy를 모르게 쓰고, 콘텐츠 필터로 민감한 출력을 막고, Prometheus로 모든 메트릭을 시각화합니다. 마지막으로 LiteLLM의 실제 한계와 대안도 솔직하게 정리합니다.[4편 핵심 요약]→ LangChain + Proxy: base_url=http://proxy:4000 — 모델 교체 없이 모든 LLM 사용→ LangGraph: LiteLLM이 LangGraph 에이전트를 모델처럼 호출 가능 (A2A 프로토콜)→ 가드레일: 콘텐츠 필터 / PII 마스킹 (Presidio) / 커스텀 훅→ Prometheus: /metrics 엔드포인트 → Grafana 대시보드 자동 연동→ 보안 주의..

AI 개발 2026.05.19

LiteLLM 완전 가이드 3편 — Proxy 서버 모드: 팀 공용 LLM 게이트웨이 구축 실전

1·2편은 Python 라이브러리로 개인이 직접 쓰는 방법이었습니다. 3편은 팀 전체가 쓰는 방법입니다. LiteLLM Proxy를 띄우면 팀원들은 각자 API 키 없이 http://our-gateway.com:4000으로 요청하면 됩니다. 비용은 중앙에서 집계되고, 팀별 예산도 설정됩니다.[3편 핵심 요약]→ LiteLLM Proxy: 팀 공용 OpenAI 호환 LLM 게이트웨이 — 셀프호스팅→ 구성: config.yaml(모델·설정) + .env(API 키) + PostgreSQL(비용 추적) + Redis(고트래픽)→ 포트: 4000 (API) / UI: http://localhost:4000/ui→ Master Key: 관리자 키 (sk-로 시작) — 가상 키 발급에 사용→ Virtual Key:..

AI 개발 2026.05.19

LiteLLM 완전 가이드 2편 — 폴백·재시도, Router 로드밸런싱, 비용 추적, 예산·캐싱 실전

1편에서 기본 호출까지 했습니다. 2편은 프로덕션에서 쓰는 패턴입니다. 프로바이더가 죽어도 자동 전환하고, 여러 배포를 밸런싱하고, 토큰 비용을 실시간으로 추적하고, 예산을 초과하면 자동으로 막습니다. [2편 핵심 요약]→ 단순 폴백: completion()의 fallbacks 파라미터 — 가장 빠른 방법→ Router: 여러 배포를 하나의 모델 그룹으로 묶어 관리하는 핵심 클래스→ 라우팅 전략: simple-shuffle(기본) / least-busy / latency-based / usage-based→ 3종 폴백: 일반 실패 / 컨텍스트 초과 / 콘텐츠 정책 위반 각각 따로 설정→ order 파라미터: 배포 우선순위 — order=1 실패 시 order=2로 자동 에스컬레이션→ completion..

AI 개발 2026.05.19

LiteLLM 완전 가이드 1편 — 100개+ LLM을 코드 한 줄로 갈아타는 오픈소스 AI 게이트웨이

Claude 쓰다가 GPT로 바꾸면 SDK 갈아야 하고, Gemini 추가하면 또 다른 SDK. 프로바이더마다 인증 방식도 응답 포맷도 다릅니다. LiteLLM은 이 모든 걸 completion() 하나로 통일합니다. model 파라미터만 바꾸면 끝납니다.[핵심 요약]→ LiteLLM: BerriAI가 만든 오픈소스 LLM 통합 라이브러리 + AI 게이트웨이→ GitHub: 40K 스타, 1,300+ 기여자, 2억 4천만+ Docker 풀→ 지원 범위: 140개+ 프로바이더, 2,500개+ 모델→ 두 가지 모드: Python SDK (라이브러리) / Proxy Server (팀 공용 게이트웨이)→ OpenAI 완전 호환: base_url만 바꾸면 기존 코드 그대로→ 지원 엔드포인트: /chat/compl..

AI 개발 2026.05.19

OpenRouter 완전 가이드 4편 — 모니터링, 레이트 리밋 관리, OAuth PKCE, 팀 운영, ZDR

[4편 핵심 요약]→ Generations API: 모든 요청의 상세 로그 — 모델·프로바이더·비용·레이턴시→ 레이트 리밋: OpenRouter 자체 제한 없음 (유료 모델) — 프로바이더 한도가 실제 제한→ 429 처리: exponential backoff + jitter + 폴백 모델 자동 전환→ API 키 관리 API: 프로그래밍으로 키 생성·삭제·한도 설정→ OAuth PKCE: 사용자가 자기 OpenRouter 계정으로 직접 인증 → 내 크레딧 소모 없음→ 가드레일: 조직 멤버·키별 예산·모델 접근 제한 설정→ ZDR: 프롬프트·응답 저장 안 하는 프로바이더만 라우팅→ Broadcast: Langfuse·Datadog·Braintrust에 트레이스 동시 전송 실전 1 — Generations A..

AI 개발 2026.05.19

OpenRouter 완전 가이드 3편 — 스트리밍, 툴 콜링, 멀티모달, 구조화 출력, LangChain·LangGraph 통합

2편에서 라우팅 고급 설정을 다뤘습니다. 3편은 실전 기능입니다. 스트리밍으로 실시간 타이핑 효과, 툴 콜링으로 에이전트, 이미지·PDF 멀티모달, JSON 구조화 출력, LangChain과 LangGraph 연동까지 다룹니다.[3편 핵심 요약]→ 스트리밍: stream=True + for chunk in stream — 모든 모델 동일한 인터페이스→ 스트리밍 에러: HTTP 200 반환 후 SSE 내부에 에러 포함 — 별도 처리 필요→ 툴 콜링: OpenAI 완전 동일 — tools + tool_choice 파라미터→ 툴 콜링 모델 필터: require_parameters: True 필수 (지원 안 하는 모델 제외)→ 멀티모달: image_url (URL or base64), PDF (base64 or..

AI 개발 2026.05.19

OpenRouter 완전 가이드 2편 — 폴백 라우팅, 로드밸런싱, 프로바이더 제어, 비용 최적화 실전

1편에서 기본 호출까지 했습니다. 2편은 OpenRouter를 단순 프록시가 아닌 인텔리전트 라우터로 쓰는 방법입니다. 프로바이더가 죽어도 앱이 살아있고, 같은 모델을 가장 저렴한 프로바이더로 자동 라우팅합니다.[2편 핵심 요약]→ 기본 로드밸런싱: 가격 역제곱 가중치 + 30초 이내 장애 프로바이더 회피→ 폴백 라우팅: models 배열에 여러 모델 → 순서대로 시도 (실패 시 자동 전환)→ provider.order: 특정 프로바이더 우선순위 지정 (Anthropic → Bedrock → Vertex)→ provider.sort: price / throughput / latency 중 하나로 정렬→ provider.ignore: 특정 프로바이더 제외 (데이터 리전 제한 등)→ max_price: 최대..

AI 개발 2026.05.19

OpenRouter 완전 가이드 1편 — 300개 AI 모델을 API 키 하나로 쓰는 법

Claude, GPT, Gemini, Llama, DeepSeek를 각각 쓰려면 API 키 5개, 청구서 5개, 레이트 리밋 각개격파입니다. OpenRouter는 이걸 하나로 통합합니다. 모델만 바꾸면 됩니다. 코드는 그대로입니다.[핵심 요약]→ OpenRouter: 300개+ AI 모델을 단일 API 엔드포인트로 제공하는 LLM 게이트웨이→ OpenAI 호환 API: base_url만 바꾸면 기존 코드 그대로 동작→ 가격: 프로바이더 직접 가격 그대로 (마크업 없음) + 5.5% 플랫폼 크레딧 수수료→ 무료 티어: 25개+ 무료 모델 (Gemma, Llama, Mistral 등) — 신용카드 불필요→ BYOK: 자체 API 키 연결 시 월 100만 요청까지 무료 (이후 5% 수수료)→ 폴백 라우팅: 프..

AI 개발 2026.05.19

Claude Opus 4.7 토크나이저 변경 — 비용 최적화 실전 가이드

가격표는 그대로인데 청구서가 늘었습니다. Claude Opus 4.7은 Opus 4.6과 동일한 $5/$25 요금이지만, 새 토크나이저가 같은 텍스트에 최대 35% 더 많은 토큰을 만들어냅니다. OpenRouter 실측 데이터에 따르면 실제 비용 증가는 12~27%입니다. 자동 마이그레이션했다면 지금 당장 확인이 필요합니다.[핵심 요약]→ 변경 내용: Opus 4.7 신규 토크나이저 — 동일 텍스트에 1.0x~1.35x 토큰 생성→ 공식 발표: Anthropic API 문서에 명시 (2026-04-16 릴리즈 노트)→ 가격: 변경 없음 ($5/M input, $25/M output)→ 실제 비용 증가: OpenRouter 실측 기준 12~27% (10K+ 토큰 프롬프트)→ 가장 큰 영향: 코드·JSON·..

Claude 2026.05.19

Firebase AI Logic + Gemini 실전 가이드 4편 — App Check, Vertex AI 전환, Remote Config, 모니터링, 비용 최적화

3편까지 개발 환경에서 Gemini를 붙였습니다. 4편은 실제 사용자에게 배포하기 전 해야 하는 것들입니다. App Check 없이 공개하면 누구나 내 API 할당량을 소진할 수 있습니다. Remote Config 없이 배포하면 모델 deprecation 때마다 앱 업데이트가 강제됩니다.[4편 핵심 요약]→ App Check: Gemini API를 인가된 앱만 사용하도록 보호 — 공개 배포 전 필수→ 프로바이더: Android=Play Integrity / iOS=App Attest / Web=reCAPTCHA Enterprise→ Vertex AI 전환: GoogleAIBackend() → VertexAIBackend() 한 줄 교체 — Blaze 플랜 필요→ Remote Config: 모델명·파라미터..

AI 개발 2026.05.19
반응형