반응형

B300 2

SGLang B300 GPU (SM103)에서 Qwen3.5 서빙 — Attention Backend

B300 GPU에서 SGLang으로 Qwen3.5를 서빙하면서 어텐션 백엔드 설정을 이것저것 해봤습니다.환경GPU: NVIDIA B300 (SM103, Blackwell 계열)모델: Qwen3.5-4B (head_dim=256)프레임워크: SGLang (CUDA 12.9+)1차 시도 — FA4 + trtllm_mha--prefill-attention-backend fa4 \--attention-backend trtllm_mha에러:AssertionError: (head_dim, head_dim_v)=(256, 256) is not supported on SM100/SM110.head_dim must be between 8 and 128FA4는 head_dim 128까지만 지원해요. Qwen3.5는 256..

LLM 2026.04.15

[실전] B300 GPU에서 SGLANG으로 gpt-oss-20b 서빙하기 (CUDA 13 버전 해결법)

안녕하세요! 오늘은 최신 사양인 B300 GPU에서 SGLANG을 사용해 gpt-oss-20b 모델을 올리는 방법을 알아보겠습니다. 일반적인 방식으로는 CUDA 버전이 맞지 않아 오류가 날 수 있는데, 이를 어떻게 해결했는지 공유해 드릴게요.1. 왜 latest 이미지 대신 dev-cu13인가요?처음에는 SGLANG의 latest 태그 이미지를 사용해서 실행해 보았습니다. 하지만 B300 하드웨어는 아주 최신이라서, 기존 이미지에 들어있는 CUDA 버전과 맞지 않는 문제가 발생했어요.그래서 저는 CUDA 13이 포함된 lmsysorg/sglang:dev-cu13 이미지를 사용했습니다. 최신 그래픽 카드의 성능을 제대로 쓰려면 꼭 이 버전을 확인해야 합니다!2. Docker 실행 명령어제가 성공한 Dock..

AI Agent 2026.03.24
반응형