GPU 노드 세팅이 끝났으면 이제 LLM을 올릴 차례입니다. 근데 일반 웹 컨테이너 올리듯 하면 90초 만에 OOMKilled 납니다. 모델이 뜨는 데만 20분인데 readinessProbe가 30초 만에 죽입니다. AI 추론 서버는 시작부터 다르게 접근해야 합니다.📌 핵심 요약→ 2026 기준 vLLM = 프로덕션 표준 (Meta·Mistral·Cohere·IBM 모두 사용)→ TGI는 2025년 12월 유지보수 모드 전환 — 신규 배포 권장 안 함→ Triton = LLM 엔진 아님, TensorRT-LLM 백엔드 필요한 플랫폼→ 모델 가중치 PVC 캐싱 필수 — 없으면 재시작마다 140GB 다운로드→ startupProbe → readinessProbe → livenessProbe 3단계 분리 —..