'Prefill' 태그의 글 목록

SGLang PD 분리 배포 완전 가이드 — Prefill/Decode 분리로 처리량 5배 올리기

LLM 추론에는 두 단계가 있어요.Prefill (프리필):- 입력 프롬프트 전체를 처리- 연산 집약적 (Compute-bound)- KV 캐시 생성- 보통 수백~수천 토큰을 한 번에 처리Decode (디코드):- 토큰을 하나씩 생성- 메모리 집약적 (Memory-bound)- KV 캐시를 매 스텝마다 읽음- 요청당 수십~수백 번 반복전통적인 통합 엔진에서는 이 두 단계가 같은 GPU에서 경쟁해요. 그래서 두 가지 심각한 문제가 생겨요.문제 1: Prefill 방해(Prefill Interruption)기존 통합 엔진:[디코딩 중...토큰 생성 중...] ↑ 새 요청 들어옴! ↓[프리필 처리... (디코딩 멈춤)][디코딩 재개...][프리필 처리... (또 멈춤)]..

LLM 2026.04.09

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

CELL AI DEVLOG

Prefill 1

티스토리툴바