'Continuous Batching' 태그의 글 목록

vLLM, SGLang이 빠른 이유 — Continuous Batching 원리와 실전

LLM 서빙 서버를 직접 구축하면 처음에 이런 상황이 생겨요.# 단순하게 구현한 LLM 서버@app.post("/generate")async def generate(request): output = model.generate(request.prompt) return output요청 하나하나를 순서대로 처리해요. GPU 사용률 확인해보면 이래요.nvidia-smi:GPU 사용률: 15~30%GPU 자원의 70~85%를 낭비하고 있어요. Continuous Batching이 이걸 해결해요.LLM 추론의 두 단계이해하려면 LLM이 어떻게 토큰을 생성하는지 알아야 해요.Prefill 단계 (입력 처리):"안녕하세요, 오늘 날씨는" → 한번에 병렬 처리→ 계산 집약적 (compute-bound)→ 첫 ..

LLM 2026.04.15

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

CELL AI DEVLOG

Continuous Batching 1

티스토리툴바