LLM 디코딩의 근본적인 병목은 이거예요."토큰을 한 번에 하나씩만 생성할 수 있다."매 스텝마다 전체 모델을 한 번 돌려야 해요. 70B 모델이면 매 토큰마다 140GB 가중치를 전부 읽어야 해요. GPU가 아무리 빨라도 메모리 대역폭이 병목이에요.Speculative Decoding은 이 문제를 투기(추측) 로 해결해요.핵심 아이디어기존 방식:[큰 모델] → 토큰1 → [큰 모델] → 토큰2 → [큰 모델] → 토큰3(매번 느린 큰 모델 호출)Speculative Decoding:[작은 드래프트 모델] → 토큰1,2,3,4,5 빠르게 예측[큰 검증 모델] → 5개 토큰을 한 번에 검증→ 맞으면 5개 한꺼번에 채택→ 틀린 것부터 버리고 큰 모델이 수정핵심은 검증이 생성보다 훨씬 빠르다는 점이에요. 큰 ..