'kubernetes vllm' 태그의 글 목록

K8s AI 워크로드 2편—LLM 추론 서버 배포, vLLM·TGI·Triton 실전 Deployment 완전 가이드

GPU 노드 세팅이 끝났으면 이제 LLM을 올릴 차례입니다. 근데 일반 웹 컨테이너 올리듯 하면 90초 만에 OOMKilled 납니다. 모델이 뜨는 데만 20분인데 readinessProbe가 30초 만에 죽입니다. AI 추론 서버는 시작부터 다르게 접근해야 합니다.📌 핵심 요약→ 2026 기준 vLLM = 프로덕션 표준 (Meta·Mistral·Cohere·IBM 모두 사용)→ TGI는 2025년 12월 유지보수 모드 전환 — 신규 배포 권장 안 함→ Triton = LLM 엔진 아님, TensorRT-LLM 백엔드 필요한 플랫폼→ 모델 가중치 PVC 캐싱 필수 — 없으면 재시작마다 140GB 다운로드→ startupProbe → readinessProbe → livenessProbe 3단계 분리 —..

AI 개발 2026.05.23

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

CELL AI DEVLOG

kubernetes vllm 1

티스토리툴바