배포는 끝이 아닙니다. TTFT가 언제 터질지 모르는 채로 운영하거나, 모델 버전 바꿀 때마다 트래픽 다 끊거나, GPU 노드가 밤새 idle로 켜져 있거나. 4편은 배포 이후 진짜 운영의 이야기입니다.📌 핵심 요약→ LLM 모니터링 핵심 4종: TTFT / TPOT / 큐 깊이 / KV캐시 — RPS만 보면 아무것도 모름→ DCGM Exporter: GPU 하드웨어 메트릭(온도·전력·SM 가동률) Prometheus로 수집→ terminationGracePeriodSeconds 기본 30초는 LLM에 사형선고 — 최소 300초로→ 카나리 배포: 새 모델 10% 트래픽 → TTFT 비교 → 점진 전환, 문제 시 즉시 롤백→ Spot + On-Demand 혼합: 학습은 Spot(60~70% 절감), 추론..