본문 바로가기

반응형

전체 글

(172)
[실전 가이드] gpt-oss-20b, 120b 운영 시 무한 루프와 JSON 출력 문제 해결하기 (sglang) 안녕하세요! 오늘은 gpt-oss-20b 모델을 서비스에서 직접 운영하면서 겪은 문제들과, 이를 해결하기 위한 팁들을 정리해봤슴다.이 모델은 OpenAI 모델들과는 성격이 아주 달라서 똑같이 다루면 실패하기 쉬워요. 프롬프트만 고치는 게 아니라, 설정과 구조를 어떻게 바꿔야 하는지 하나씩 설명해 드릴게요!1. gpt-oss의 핵심 특성 요약 gpt-oss는 이런 친구입니다.reasoning 중심 구조: 이 모델은 대답하기 전에 속으로 생각(Reasoning)을 아주 깊게 하는 구조로 되어 있습니다.프롬프트로 reasoning을 “끄는 것”이 거의 불가능: 우리가 "생각하지 말고 바로 말해!"라고 아무리 부탁해도 이 기능을 끄기가 참 어렵습니다.JSON 출력, strict format 요구에 매우 취약: ..
LLM 성능 평가는 어떻게 할까? MT-Bench부터 HELM까지 인공지능 모델을 개발하거나 튜닝한 후, 가장 고민되는 지점은 바로 **"이 모델이 정말 성능이 좋아졌는가?"**를 객관적으로 측정하는 것입니다. 단순한 정확도를 넘어 실제 대화 능력과 안전성을 측정하는 대표적인 LLM(대형 언어 모델) 벤치마크 도구들을 소개합니다.1. 대화의 질을 판별하는 'MT-Bench' (Multi-Turn Bench)MT-Bench는 LMSYS(홍콩대 및 UC 버클리 연구진)에서 개발한 다중턴 대화 기반 평가 시스템입니다. 단순히 한 번의 질문과 답변으로 끝내는 것이 아니라, 꼬리에 꼬리를 무는 대화 속에서 모델이 얼마나 맥락을 잘 유지하는지 확인합니다.✅ 주요 평가 방식GPT-4 기반 상대 평가: 사람이 일일이 채점하는 대신, 성능이 검증된 GPT-4가 심판이 되어 후보 모델들..
AI 모델의 실력을 정확히 평가하는 방법: LLM 수동 평가 완벽 가이드 인공지능 모델을 개발하거나 도입할 때, 우리 모델이 얼마나 일을 잘하는지 확인하는 과정은 정말 중요합니다. 단순히 "좋다"라고 말하는 대신, 정확한 기준을 가지고 평가해야 하거든요. 오늘은 특정 Task 수행 능력을 수동으로 평가하는 구체적인 방법을 소개해 드릴게요🧭 1. 평가 목적 정의하기🔧 예시: "법률 질문 요약", "장문의 보고서 요약" 등평가를 정밀하게 하려면, 여러 가지를 한꺼번에 하지 않고 단일 작업이나 특정 도메인에만 집중하는 것이 좋습니다.먼저 무엇을 넣을지(입력 예시)와 어떤 대답이 나오길 바라는지(출력 기대치)를 미리 정합니다.예시:입력: CCTV 이벤트 로그출력: 사람이 보기 쉽게 요약된 자연어 보고서🛠️ 2. 평가 데이터셋 구성하기10개에서 50개 정도의 아주 특별한 테스트 ..
[AI 에이전트 개발 가이드] MCP, 스킬(Skills), 규칙(Rules) 비교 정리 1. 스킬(Agent Skills)이란 무엇일까요?스킬은 AI 에이전트에게 특정 작업을 어떻게 수행해야 하는지 가르쳐주는 '전문 매뉴얼'입니다. Anthropic에서 제안한 오픈 표준으로, 단순한 도구 사용을 넘어선 '절차적 지식'을 의미합니다.정체: 특정 분야의 지식, 워크플로우, 지침을 패키징한 것.형태: .claude/skills/ 폴더 내의 SKILL.md 파일 형태.역할: AI가 "이 상황에서는 이런 순서로 일해야 해!"라는 노하우를 배우게 함. 2. MCP vs 스킬: 실행과 정의의 차이많은 분이 헷갈려하시는 MCP와 스킬의 차이점을 비유를 통해 한눈에 비교해 보겠습니다.구분MCP (Model Context Protocol)스킬 (Agent Skills)비유AI에게 주는 '망치와 드라이버'AI..

반응형