본문 바로가기

LLM

(51)

sglang vs vLLM — 오픈소스 LLM 서빙 프레임워크 실전 비교 오픈소스 LLM을 직접 서빙하려고 하면 이 두 개를 반드시 마주치게 됩니다."sglang이랑 vLLM 중에 뭐 써야 하지?"둘 다 LLM을 HTTP API로 서빙하는 프레임워크인데, 설계 철학과 강점이 달라요. 이번 글에서는 실전 관점에서 두 프레임워크를 비교해 드릴게요.먼저 둘 다 뭔지부터vLLM은 2023년 UC Berkeley에서 발표한 LLM 서빙 프레임워크예요. PagedAttention이라는 메모리 관리 기법을 처음 도입해서 GPU 메모리 효율을 획기적으로 높인 프레임워크입니다. OpenAI API와 호환되는 엔드포인트를 제공해서 기존 코드를 거의 수정 없이 연결할 수 있어요.sglang은 2024년 Stanford에서 발표한 프레임워크예요. RadixAttention이라는 KV 캐시 공유 기..

LLM 성능 평가는 어떻게 할까? MT-Bench부터 HELM까지 인공지능 모델을 개발하거나 튜닝한 후, 가장 고민되는 지점은 바로 **"이 모델이 정말 성능이 좋아졌는가?"**를 객관적으로 측정하는 것입니다. 단순한 정확도를 넘어 실제 대화 능력과 안전성을 측정하는 대표적인 LLM(대형 언어 모델) 벤치마크 도구들을 소개합니다.1. 대화의 질을 판별하는 'MT-Bench' (Multi-Turn Bench)MT-Bench는 LMSYS(홍콩대 및 UC 버클리 연구진)에서 개발한 다중턴 대화 기반 평가 시스템입니다. 단순히 한 번의 질문과 답변으로 끝내는 것이 아니라, 꼬리에 꼬리를 무는 대화 속에서 모델이 얼마나 맥락을 잘 유지하는지 확인합니다.✅ 주요 평가 방식GPT-4 기반 상대 평가: 사람이 일일이 채점하는 대신, 성능이 검증된 GPT-4가 심판이 되어 후보 모델들..

AI 모델의 실력을 정확히 평가하는 방법: LLM 수동 평가 완벽 가이드 인공지능 모델을 개발하거나 도입할 때, 우리 모델이 얼마나 일을 잘하는지 확인하는 과정은 정말 중요합니다. 단순히 "좋다"라고 말하는 대신, 정확한 기준을 가지고 평가해야 하거든요. 오늘은 특정 Task 수행 능력을 수동으로 평가하는 구체적인 방법을 소개해 드릴게요🧭 1. 평가 목적 정의하기🔧 예시: "법률 질문 요약", "장문의 보고서 요약" 등평가를 정밀하게 하려면, 여러 가지를 한꺼번에 하지 않고 단일 작업이나 특정 도메인에만 집중하는 것이 좋습니다.먼저 무엇을 넣을지(입력 예시)와 어떤 대답이 나오길 바라는지(출력 기대치)를 미리 정합니다.예시:입력: CCTV 이벤트 로그출력: 사람이 보기 쉽게 요약된 자연어 보고서🛠️ 2. 평가 데이터셋 구성하기10개에서 50개 정도의 아주 특별한 테스트 ..

이전 1 ··· 4 5 6 7 다음

티스토리툴바