반응형

Speculative Decoding 2

Speculative Decoding 실전 — Draft 모델 + 검증 모델 조합으로 추론 속도 2~3배 높이기

LLM 추론이 느린 이유는 연산이 부족해서가 아닙니다. GPU가 다음 가중치 로딩을 기다리는 동안 연산 유닛이 놀고 있습니다. Speculative Decoding은 그 유휴 시간을 채웁니다.핵심 요약 → Speculative Decoding: 소형 Draft 모델이 토큰 K개 예측 → 대형 Target 모델이 한 번에 검증 → 출력 품질 변화 없음: 수락된 토큰은 Target 모델이 직접 생성한 것과 동일한 분포 → 속도 향상: 수락률(α) 0.6~0.8 구간에서 실제 2~3배 (EAGLE3 기준 최대 4.48배) → 2026년 최신: EAGLE3 = 표준, MTP (DeepSeek V4 네이티브), Medusa (단순 설정) → vLLM + EAGLE3: --speculative-model 파라미터 ..

LLM 2026.05.29

Speculative Decoding 완전 정리 — 추론 속도 2~3배 올리는 법

LLM 디코딩의 근본적인 병목은 이거예요."토큰을 한 번에 하나씩만 생성할 수 있다."매 스텝마다 전체 모델을 한 번 돌려야 해요. 70B 모델이면 매 토큰마다 140GB 가중치를 전부 읽어야 해요. GPU가 아무리 빨라도 메모리 대역폭이 병목이에요.Speculative Decoding은 이 문제를 투기(추측) 로 해결해요.핵심 아이디어기존 방식:[큰 모델] → 토큰1 → [큰 모델] → 토큰2 → [큰 모델] → 토큰3(매번 느린 큰 모델 호출)Speculative Decoding:[작은 드래프트 모델] → 토큰1,2,3,4,5 빠르게 예측[큰 검증 모델] → 5개 토큰을 한 번에 검증→ 맞으면 5개 한꺼번에 채택→ 틀린 것부터 버리고 큰 모델이 수정핵심은 검증이 생성보다 훨씬 빠르다는 점이에요. 큰 ..

LLM 2026.04.09
반응형