'trtllm_mha' 태그의 글 목록

SGLang Attention Backend 완전 비교 — Triton, FlashInfer, FA3, TRTLLM

SGLang으로 서버 띄울 때 이 파라미터를 보게 돼요.python -m sglang.launch_server \ --model-path Qwen/Qwen3.5-9B-Instruct \ --attention-backend ??? # 뭘 써야 하지?옵션이 여러 개예요.tritonflashinferfa3 (flashattention3)trtllm_mhatrtllm_mlafa4 (최신)각각이 뭔지, 언제 써야 하는지 정리할게요.백엔드가 뭔가Attention 계산을 어떤 커널(저수준 GPU 코드)로 처리할지 결정하는 거예요.SGLang 서버 ↓Attention Backend 선택 ↓┌──────────────────────────────────────┐│ Triton │ FlashInfer..

LLM 2026.04.15

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

CELL AI DEVLOG

trtllm_mha 1

티스토리툴바