CPU 40%에 스케일 아웃 트리거 맞춰놨는데 추론 큐가 쌓이고 있습니다. LLM은 CPU를 안 씁니다. GPU를 씁니다. 그리고 GPU는 뜨는 순간 VRAM을 다 먹습니다. 기본 HPA로 LLM 스케일링 하려는 건 처음부터 틀렸습니다.📌 핵심 요약→ HPA CPU/메모리 기반 스케일링은 LLM에 무의미 — GPU bound 워크로드→ KEDA: Prometheus 쿼리로 추론 큐 깊이·TTFT·KV 캐시로 스케일링 트리거→ vLLM 핵심 메트릭 3종: num_requests_waiting / gpu_cache_usage_perc / time_to_first_token→ 배치 추론: Job + parallelism으로 병렬 처리, CronJob으로 야간 스케줄→ Kueue: 팀 간 GPU 공정 배분 표..