'vLLM 0.21' 태그의 글 목록

vLLM 0.21 완전분석 — TOKENSPEED_MLA, MTP Thinking budget 수정, Blackwell 최적화 총정리

2026년 5월, 로컬 LLM 런타임 생태계가 한꺼번에 움직였습니다. vLLM 0.21이 DeepSeek V4의 Blackwell 서빙을 안정화했고, MTP 투기적 디코딩이 추론 모델에서도 제대로 동작하기 시작했습니다. 무엇이 바뀌었고 실제로 어떻게 써야 하는지 정리합니다.핵심 요약→ 출시: vLLM v0.21.0, 2026년 5월 15일 (v0.20.0의 안정화 릴리스)→ 핵심 1: TOKENSPEED_MLA — Blackwell GPU에서 DeepSeek-R1/Kimi-K2.5 프리필+디코드 전용 어텐션 백엔드→ 핵심 2: MTP(Multi-Token Prediction) 스펙 디코딩 — Thinking budget 존중, 추론 모델 정확성 버그 수정→ 핵심 3: KV Offload + HMA(Hyb..

LLM 2026.06.01

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

CELL AI DEVLOG

vLLM 0.21 1

티스토리툴바