'kubernetes llm' 태그의 글 목록

kubernetes llm 3

K8s AI 워크로드 3편—KEDA 스케일링과 멀티테넌시, HPA가 LLM에 왜 안 되는지부터

CPU 40%에 스케일 아웃 트리거 맞춰놨는데 추론 큐가 쌓이고 있습니다. LLM은 CPU를 안 씁니다. GPU를 씁니다. 그리고 GPU는 뜨는 순간 VRAM을 다 먹습니다. 기본 HPA로 LLM 스케일링 하려는 건 처음부터 틀렸습니다.📌 핵심 요약→ HPA CPU/메모리 기반 스케일링은 LLM에 무의미 — GPU bound 워크로드→ KEDA: Prometheus 쿼리로 추론 큐 깊이·TTFT·KV 캐시로 스케일링 트리거→ vLLM 핵심 메트릭 3종: num_requests_waiting / gpu_cache_usage_perc / time_to_first_token→ 배치 추론: Job + parallelism으로 병렬 처리, CronJob으로 야간 스케줄→ Kueue: 팀 간 GPU 공정 배분 표..

AI 개발 2026.05.23

K8s AI 워크로드 2편—LLM 추론 서버 배포, vLLM·TGI·Triton 실전 Deployment 완전 가이드

GPU 노드 세팅이 끝났으면 이제 LLM을 올릴 차례입니다. 근데 일반 웹 컨테이너 올리듯 하면 90초 만에 OOMKilled 납니다. 모델이 뜨는 데만 20분인데 readinessProbe가 30초 만에 죽입니다. AI 추론 서버는 시작부터 다르게 접근해야 합니다.📌 핵심 요약→ 2026 기준 vLLM = 프로덕션 표준 (Meta·Mistral·Cohere·IBM 모두 사용)→ TGI는 2025년 12월 유지보수 모드 전환 — 신규 배포 권장 안 함→ Triton = LLM 엔진 아님, TensorRT-LLM 백엔드 필요한 플랫폼→ 모델 가중치 PVC 캐싱 필수 — 없으면 재시작마다 140GB 다운로드→ startupProbe → readinessProbe → livenessProbe 3단계 분리 —..

AI 개발 2026.05.23

K8s AI 워크로드 1편—GPU 노드 설정과 인프라 기초, 비싼 GPU 낭비 없이 쓰는 법

AI 서비스 Kubernetes에 올렸더니 GPU 노드에 일반 Pod가 들어가고, GPU Pod는 Pending에서 안 떠나는 경험, 한 번쯤 합니다. 일반 웹앱 운영이랑 GPU 워크로드는 출발점부터 다릅니다.📌 핵심 요약→ GPU 노드는 반드시 Taint — 안 하면 CPU Pod가 $30K짜리 노드에 들어옴→ Device Plugin vs GPU Operator: 소규모는 Plugin, 프로덕션은 Operator→ K8s 1.34 DRA GA — Device Plugin 정수 단위 할당의 한계를 구조화 파라미터로 해결→ GPU 공유 3가지: MIG(하드웨어 격리) / Time-slicing(소프트 공유) / MPS(동시 실행)→ requests = limits 필수 — GPU는 오버커밋 불가, 불일..

AI 개발 2026.05.23

CELL AI DEVLOG

AI 에이전트 만듭니다

openai codex, 바이브코딩, Claude, AWS Kiro, LLM as a judge, LLM, LLM서빙, 클로드코드, github copilot, 오픈소스llm, AI 에이전트, SGLANG, Rag, Gemini, Claude Opus 4.8, MCP, claude code, AI agent, Gemini 3.5 Flash, 멀티에이전트,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

kubernetes llm 3

티스토리툴바