SGLang B300 GPU (SM103)에서 Qwen3.5 서빙

B300 GPU에서 SGLang으로 Qwen3.5를 서빙하면서 어텐션 백엔드 설정을 이것저것 해봤습니다.

환경

GPU: NVIDIA B300 (SM103, Blackwell 계열)
모델: Qwen3.5-4B (head_dim=256)
프레임워크: SGLang (CUDA 12.9+)

1차 시도 — FA4 + trtllm_mha

--prefill-attention-backend fa4 \
--attention-backend trtllm_mha

에러:

AssertionError: (head_dim, head_dim_v)=(256, 256) is not supported on SM100/SM110.
head_dim must be between 8 and 128

FA4는 head_dim 128까지만 지원해요. Qwen3.5는 256이라 안 됩니다.

2차 시도 — FA3 + trtllm_mha

--prefill-attention-backend fa3 \
--attention-backend trtllm_mha

에러:

AssertionError: FlashAttention v3 Backend requires SM>=80 and SM<=90.
Please use `--attention-backend flashinfer`.

FA3는 SM90(H100)까지만 지원해요. SM103은 안 됩니다.

정리 — 왜 이렇게 되나

FA4: SM103 지원하지만 head_dim 128까지만
FA3: head_dim 256 지원하지만 SM90까지만

Qwen3.5 head_dim=256 + SM103:
둘 다 조건 충족 못함

실제로 동작하는 백엔드

# triton (가장 범용, 원래 동작하던 것)
--attention-backend triton

# flashinfer (에러 메시지가 직접 추천)
--attention-backend flashinfer

둘 다 head_dim 256, SM103에서 정상 동작해요.

모델별 B300 최적 백엔드

head_dim 128 이하 (Llama 등):
→ --prefill-attention-backend fa4
   --attention-backend trtllm_mha

head_dim 256 (Qwen3.5 등):
→ --attention-backend triton 또는 flashinfer
   (FA4가 head_dim 256 지원 추가 전까지)

DeepSeek MLA:
→ --prefill-attention-backend fa4
   --attention-backend trtllm_mla
   --moe-runner-backend flashinfer_trtllm

'LLM' 카테고리의 다른 글

GLM-5.1 vs Claude Opus 4.6 vs GPT-5.4 (0)	2026.04.16
Anthropic Claude Opus 4.7 + AI 디자인 툴 이번주 출시 예정 — Figma, Wix 주가 폭락한 이유 (0)	2026.04.16
SGLang Attention Backend 완전 비교 — Triton, FlashInfer, FA3, TRTLLM (0)	2026.04.15
FlashAttention 완전 정리 — LLM이 긴 문서를 처리할 수 있는 진짜 이유 (0)	2026.04.15
vLLM, SGLang이 빠른 이유 — Continuous Batching 원리와 실전 (0)	2026.04.15

Cell DEVLOG

SGLang B300 GPU (SM103)에서 Qwen3.5 서빙 — Attention Backend

환경

1차 시도 — FA4 + trtllm_mha

2차 시도 — FA3 + trtllm_mha

정리 — 왜 이렇게 되나

실제로 동작하는 백엔드

모델별 B300 최적 백엔드

'LLM' 카테고리의 다른 글

티스토리툴바

SGLang B300 GPU (SM103)에서 Qwen3.5 서빙 — Attention Backend

환경

1차 시도 — FA4 + trtllm_mha

2차 시도 — FA3 + trtllm_mha

정리 — 왜 이렇게 되나

실제로 동작하는 백엔드

모델별 B300 최적 백엔드

'LLM' 카테고리의 다른 글

'LLM' Related Articles

티스토리툴바