반응형

vLLM 4

vLLM 0.21 완전분석 — TOKENSPEED_MLA, MTP Thinking budget 수정, Blackwell 최적화 총정리

2026년 5월, 로컬 LLM 런타임 생태계가 한꺼번에 움직였습니다. vLLM 0.21이 DeepSeek V4의 Blackwell 서빙을 안정화했고, MTP 투기적 디코딩이 추론 모델에서도 제대로 동작하기 시작했습니다. 무엇이 바뀌었고 실제로 어떻게 써야 하는지 정리합니다.핵심 요약→ 출시: vLLM v0.21.0, 2026년 5월 15일 (v0.20.0의 안정화 릴리스)→ 핵심 1: TOKENSPEED_MLA — Blackwell GPU에서 DeepSeek-R1/Kimi-K2.5 프리필+디코드 전용 어텐션 백엔드→ 핵심 2: MTP(Multi-Token Prediction) 스펙 디코딩 — Thinking budget 존중, 추론 모델 정확성 버그 수정→ 핵심 3: KV Offload + HMA(Hyb..

LLM 2026.06.01

vLLM, SGLang이 빠른 이유 — Continuous Batching 원리와 실전

LLM 서빙 서버를 직접 구축하면 처음에 이런 상황이 생겨요.# 단순하게 구현한 LLM 서버@app.post("/generate")async def generate(request): output = model.generate(request.prompt) return output요청 하나하나를 순서대로 처리해요. GPU 사용률 확인해보면 이래요.nvidia-smi:GPU 사용률: 15~30%GPU 자원의 70~85%를 낭비하고 있어요. Continuous Batching이 이걸 해결해요.LLM 추론의 두 단계이해하려면 LLM이 어떻게 토큰을 생성하는지 알아야 해요.Prefill 단계 (입력 처리):"안녕하세요, 오늘 날씨는" → 한번에 병렬 처리→ 계산 집약적 (compute-bound)→ 첫 ..

LLM 2026.04.15

SGLang 서빙에 대한 모든 것 — 설치부터 프로덕션까지 완전 가이드

2026년 현재 오픈소스 LLM 추론 엔진 중 실질적인 업계 표준은 SGLang이에요.xAI(Grok), NVIDIA, AMD, LinkedIn, Cursor, Oracle Cloud, Google Cloud, AWS가 프로덕션에 사용 중이고, 전 세계 40만 개 이상의 GPU에서 매일 수조 개의 토큰을 처리하고 있어요.근데 왜 vLLM을 놔두고 SGLang인가? 핵심은 하나예요."vLLM은 요청을 독립된 단위로 처리한다. SGLang은 요청을 프로그램으로 처리한다."이 철학 하나가 성능을 완전히 갈라요.SGLang이 빠른 이유 — 핵심 원리 3가지1. RadixAttention — KV 캐시 자동 재사용기존 추론 엔진의 문제를 먼저 이해해야 해요.일반 추론 엔진 (vLLM 포함):요청 A: [시스템 프..

LLM 2026.04.09

sglang vs vLLM — 오픈소스 LLM 서빙 프레임워크 실전 비교

오픈소스 LLM을 직접 서빙하려고 하면 이 두 개를 반드시 마주치게 됩니다."sglang이랑 vLLM 중에 뭐 써야 하지?"둘 다 LLM을 HTTP API로 서빙하는 프레임워크인데, 설계 철학과 강점이 달라요. 이번 글에서는 실전 관점에서 두 프레임워크를 비교해 드릴게요.먼저 둘 다 뭔지부터vLLM은 2023년 UC Berkeley에서 발표한 LLM 서빙 프레임워크예요. PagedAttention이라는 메모리 관리 기법을 처음 도입해서 GPU 메모리 효율을 획기적으로 높인 프레임워크입니다. OpenAI API와 호환되는 엔드포인트를 제공해서 기존 코드를 거의 수정 없이 연결할 수 있어요.sglang은 2024년 Stanford에서 발표한 프레임워크예요. RadixAttention이라는 KV 캐시 공유 기..

LLM 2026.03.24
반응형