CELL AI DEVLOG

[실전] B300 GPU에서 SGLANG으로 gpt-oss-20b 서빙하기 (CUDA 13 버전 해결법)

안녕하세요! 오늘은 최신 사양인 B300 GPU에서 SGLANG을 사용해 gpt-oss-20b 모델을 올리는 방법을 알아보겠습니다. 일반적인 방식으로는 CUDA 버전이 맞지 않아 오류가 날 수 있는데, 이를 어떻게 해결했는지 공유해 드릴게요.1. 왜 latest 이미지 대신 dev-cu13인가요?처음에는 SGLANG의 latest 태그 이미지를 사용해서 실행해 보았습니다. 하지만 B300 하드웨어는 아주 최신이라서, 기존 이미지에 들어있는 CUDA 버전과 맞지 않는 문제가 발생했어요.그래서 저는 CUDA 13이 포함된 lmsysorg/sglang:dev-cu13 이미지를 사용했습니다. 최신 그래픽 카드의 성능을 제대로 쓰려면 꼭 이 버전을 확인해야 합니다!2. Docker 실행 명령어제가 성공한 Dock..

AI Agent 2026.03.24

[실전 가이드] gpt-oss-20b, 120b 운영 시 무한 루프와 JSON 출력 문제 해결하기 (sglang)

gpt-oss-20b를 서비스에서 직접 굴려봤는데, 솔직히 처음 며칠은 왜 이 모델이 이렇게 동작하는지 이해하는 데만 시간이 다 갔습니다. 다른 오픈소스 LLM처럼 프롬프트 고치는 식으로 접근하면 계속 실패합니다. 파라미터와 런타임 설정을 직접 만져야 해결됩니다.핵심 요약gpt-oss는 reasoning-first 구조라 프롬프트만으로 동작 제어가 거의 불가능합니다.가장 중요한 설정은 max_model_len을 4096으로 줄이는 것이고, temperature=0은 절대 쓰면 안 됩니다. max_tokens는 512~800으로 짧게 끊어야 JSON이 나오고, JSON Schema에는 "final" 키 래핑이 필수입니다.SGLang reasoning-parser를 제거하면 JSON 성공률은 올라가지만 추론..

AI Agent 2026.03.24

LLM 성능 평가는 어떻게 할까? MT-Bench부터 HELM까지

인공지능 모델을 개발하거나 튜닝한 후, 가장 고민되는 지점은 바로 **"이 모델이 정말 성능이 좋아졌는가?"**를 객관적으로 측정하는 것입니다. 단순한 정확도를 넘어 실제 대화 능력과 안전성을 측정하는 대표적인 LLM(대형 언어 모델) 벤치마크 도구들을 소개합니다.1. 대화의 질을 판별하는 'MT-Bench' (Multi-Turn Bench)MT-Bench는 LMSYS(홍콩대 및 UC 버클리 연구진)에서 개발한 다중턴 대화 기반 평가 시스템입니다. 단순히 한 번의 질문과 답변으로 끝내는 것이 아니라, 꼬리에 꼬리를 무는 대화 속에서 모델이 얼마나 맥락을 잘 유지하는지 확인합니다.✅ 주요 평가 방식GPT-4 기반 상대 평가: 사람이 일일이 채점하는 대신, 성능이 검증된 GPT-4가 심판이 되어 후보 모델들..

LLM 2026.03.24

AI 모델의 실력을 정확히 평가하는 방법: LLM 수동 평가 완벽 가이드

인공지능 모델을 개발하거나 도입할 때, 우리 모델이 얼마나 일을 잘하는지 확인하는 과정은 정말 중요합니다. 단순히 "좋다"라고 말하는 대신, 정확한 기준을 가지고 평가해야 하거든요. 오늘은 특정 Task 수행 능력을 수동으로 평가하는 구체적인 방법을 소개해 드릴게요🧭 1. 평가 목적 정의하기🔧 예시: "법률 질문 요약", "장문의 보고서 요약" 등평가를 정밀하게 하려면, 여러 가지를 한꺼번에 하지 않고 단일 작업이나 특정 도메인에만 집중하는 것이 좋습니다.먼저 무엇을 넣을지(입력 예시)와 어떤 대답이 나오길 바라는지(출력 기대치)를 미리 정합니다.예시:입력: CCTV 이벤트 로그출력: 사람이 보기 쉽게 요약된 자연어 보고서🛠️ 2. 평가 데이터셋 구성하기10개에서 50개 정도의 아주 특별한 테스트 ..

LLM 2026.03.24

[AI 에이전트 개발 가이드] MCP, 스킬(Skills), 규칙(Rules) 비교 정리

1. 스킬(Agent Skills)이란 무엇일까요?스킬은 AI 에이전트에게 특정 작업을 어떻게 수행해야 하는지 가르쳐주는 '전문 매뉴얼'입니다. Anthropic에서 제안한 오픈 표준으로, 단순한 도구 사용을 넘어선 '절차적 지식'을 의미합니다.정체: 특정 분야의 지식, 워크플로우, 지침을 패키징한 것.형태: .claude/skills/ 폴더 내의 SKILL.md 파일 형태.역할: AI가 "이 상황에서는 이런 순서로 일해야 해!"라는 노하우를 배우게 함. 2. MCP vs 스킬: 실행과 정의의 차이많은 분이 헷갈려하시는 MCP와 스킬의 차이점을 비유를 통해 한눈에 비교해 보겠습니다.구분MCP (Model Context Protocol)스킬 (Agent Skills)비유AI에게 주는 '망치와 드라이버'AI..

AI Agent 2026.03.24

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

CELL AI DEVLOG

전체 글 355

티스토리툴바