반응형

GPT-OSS 2

[실전] B300 GPU에서 SGLANG으로 gpt-oss-20b 서빙하기 (CUDA 13 버전 해결법)

안녕하세요! 오늘은 최신 사양인 B300 GPU에서 SGLANG을 사용해 gpt-oss-20b 모델을 올리는 방법을 알아보겠습니다. 일반적인 방식으로는 CUDA 버전이 맞지 않아 오류가 날 수 있는데, 이를 어떻게 해결했는지 공유해 드릴게요.1. 왜 latest 이미지 대신 dev-cu13인가요?처음에는 SGLANG의 latest 태그 이미지를 사용해서 실행해 보았습니다. 하지만 B300 하드웨어는 아주 최신이라서, 기존 이미지에 들어있는 CUDA 버전과 맞지 않는 문제가 발생했어요.그래서 저는 CUDA 13이 포함된 lmsysorg/sglang:dev-cu13 이미지를 사용했습니다. 최신 그래픽 카드의 성능을 제대로 쓰려면 꼭 이 버전을 확인해야 합니다!2. Docker 실행 명령어제가 성공한 Dock..

AI Agent 2026.03.24

[실전 가이드] gpt-oss-20b, 120b 운영 시 무한 루프와 JSON 출력 문제 해결하기 (sglang)

안녕하세요! 오늘은 gpt-oss-20b 모델을 서비스에서 직접 운영하면서 겪은 문제들과, 이를 해결하기 위한 팁들을 정리해봤슴다.이 모델은 OpenAI 모델들과는 성격이 아주 달라서 똑같이 다루면 실패하기 쉬워요. 프롬프트만 고치는 게 아니라, 설정과 구조를 어떻게 바꿔야 하는지 하나씩 설명해 드릴게요!1. gpt-oss의 핵심 특성 요약 gpt-oss는 이런 친구입니다.reasoning 중심 구조: 이 모델은 대답하기 전에 속으로 생각(Reasoning)을 아주 깊게 하는 구조로 되어 있습니다.프롬프트로 reasoning을 “끄는 것”이 거의 불가능: 우리가 "생각하지 말고 바로 말해!"라고 아무리 부탁해도 이 기능을 끄기가 참 어렵습니다.JSON 출력, strict format 요구에 매우 취약: ..

AI Agent 2026.03.24
반응형