'2026/06/23 글 목록

본문 바로가기

2026/06/23

vLLM vs SGLang: 프로덕션 LLM 서빙 프레임워크 완전 비교 DeepSeek V4가 MIT 라이선스로 공개되면서 자체 서버에 LLM을 올리려는 팀이 급증했습니다. 그 순간 반드시 마주치는 질문이 하나 있습니다. vLLM이냐 SGLang이냐. 둘 다 오픈소스에 OpenAI 호환 API를 제공하는데, 무엇을 골라야 하는지 기준이 없으면 잘못된 선택을 하고 나중에 마이그레이션하게 됩니다. 직접 숫자를 뜯어보고 정리했습니다.핵심 요약두 프레임워크를 한 줄로 정리하면, vLLM은 프로덕션 기본값이고 SGLang은 멀티턴·에이전트 워크로드에서 더 빠른 대안입니다.vLLM은 PagedAttention으로 GPU 메모리를 가상 메모리처럼 관리합니다. 기존 방식이 KV 캐시에 연속 메모리 블록을 할당해서 60~80%를 낭비했다면, vLLM은 16토큰 단위 페이지로 쪼개서 단편화를.. 더보기

LLM Observability: LangSmith vs Langfuse 비교 프로덕션에 에이전트를 올리고 나면 반드시 마주치는 상황이 있습니다. 사용자가 "AI 답변이 이상해요"라고 신고하는데, 왜 틀렸는지 알 방법이 없는 겁니다. RAG가 잘못된 청크를 가져온 건지, 프롬프트 템플릿이 문제인지, 툴 호출이 실패한 건지 — 로그만 봐서는 모릅니다. LLM Observability가 필요한 이유가 바로 여기 있고, 2026년 기준 가장 많이 쓰이는 두 선택지가 LangSmith와 Langfuse입니다.핵심 요약두 플랫폼이 해결하는 문제는 같습니다. LLM 애플리케이션에서 각 단계를 트레이싱해서 어디서 무슨 일이 일어났는지 볼 수 있게 해주는 것입니다. RAG 파이프라인이라면 리트리버가 어떤 청크를 가져왔는지, 임베딩 단계에서 얼마나 걸렸는지, 최종 LLM 호출에서 어떤 프롬프트가 .. 더보기

Claude Code + 로컬 LLM 완전분석: API 비용 0원으로 돌리는 법 월말에 Claude API 비용 청구서 보고 식겁한 적 있으면 이 글이 딱입니다. 2026년 1월 Ollama v0.14.0부터 Anthropic Messages API를 네이티브로 지원하면서, 환경변수 두 줄로 Claude Code를 로컬 LLM에 연결할 수 있게 됐습니다. 프록시도, 미들웨어도 필요 없습니다.핵심 요약Claude Code는 내부적으로 Anthropic Messages API 포맷으로 요청을 보냅니다. 기본값은 Anthropic 서버지만, ANTHROPIC_BASE_URL을 바꾸면 같은 포맷을 받는 로컬 서버로 그대로 리다이렉트됩니다. Claude 모델인지 확인하는 검증 로직이 없기 때문에, Ollama가 띄워주는 로컬 서버로 향하게 하면 어떤 오픈소스 모델이든 Claude Code의 .. 더보기

Gemini 3.5 Flash vs GPT-5.5 실전 비교: 속도 4배, 가격 1/3, 근데 진짜로 쓸 수 있나? Google I/O 2026에서 Gemini 3.5 Flash가 공개된 날, 커뮤니티 반응은 두 갈래로 갈렸습니다. "Flash가 드디어 Pro를 잡았다"는 환호와 "근데 가격이 3배 올랐잖아"는 의문입니다. 직접 숫자를 뜯어보고 코드로 돌려봤습니다.핵심 요약Gemini 3.5 Flash는 2026년 5월 19일 Google I/O와 동시에 GA(정식 출시) 상태로 공개됐습니다. Flash 등급 모델이면서 이전 세대인 Gemini 3.1 Pro를 15개 벤치마크 중 11개에서 이겼다는 게 구글의 주장입니다. 속도는 초당 284토큰으로 다른 프론티어 모델 대비 약 4배 빠르고, 가격은 입력 $1.50 / 출력 $9.00(1M 토큰 기준)입니다.GPT-5.5와 비교하면 역할이 명확하게 나뉩니다. MCP At.. 더보기

DeepSeek V4 로컬 실행 완전분석 DeepSeek가 2026년 4월 V4 계열을 MIT 라이선스로 공개했을 때 개발자 커뮤니티가 들썩였습니다. 프론티어급 성능을 다운로드해서 내 서버에서 돌릴 수 있다는 얘기였으니까요. 근데 막상 하드웨어 요구사항을 보면 현실이 좀 다릅니다. 무엇이 가능하고 무엇이 불가능한지, 직접 정리했습니다.핵심 요약먼저 DeepSeek V4 계열 구조부터 파악해야 혼란이 없습니다. V4-Pro는 총 1.6조 파라미터에 추론 시 49B만 활성화하는 MoE 구조고, V4-Flash는 총 284B에 추론 시 13B가 활성화됩니다. 둘 다 MIT 라이선스로 HuggingFace에서 무료로 내려받을 수 있고 1M 토큰 컨텍스트를 지원합니다.문제는 "MIT 라이선스라 공짜"와 "내 PC에서 돌릴 수 있다"가 완전히 다른 얘기라.. 더보기

Claude Code로 사이드프로젝트 처음부터 끝까지 만들기 출시 9개월 만에 연간 반복 매출 25억 달러를 찍었습니다. Claude Code 얘기입니다. 개발자 도구 역사상 이 속도로 성장한 제품이 없었다는 게 Anthropic이 직접 밝힌 숫자입니다. 왜 이렇게 빠르게 퍼졌는지, 실제로 URL 단축기 사이드프로젝트를 처음부터 배포까지 만들어보면서 확인해봤습니다.핵심 요약Claude Code는 터미널에서 직접 실행하는 에이전트형 코딩 도구로, 브라우저 챗봇이나 IDE 플러그인과 근본적으로 다릅니다. 프로젝트 전체를 인덱싱하고 파일 간 관계를 이해한 채로 파일을 읽고, 수정하고, 터미널 명령을 직접 실행합니다.2026년 초 기준으로 개발자 선호도 조사에서 46%가 가장 선호하는 AI 코딩 도구로 Claude Code를 꼽았고, Cursor(19%)와 GitHub .. 더보기

Qwen 3.7 한국어 성능 실전 테스트: 중국산 오픈소스 LLM, 실제로 쓸 수 있나? API 비용이 쌓이기 시작하면 로컬 LLM을 찾게 됩니다. 문제는 영어 벤치마크 숫자는 넘쳐나는데 한국어로 실제로 어떻게 동작하는지 확인한 자료가 없다는 점입니다. Qwen 3.7 계열을 직접 돌려보고 정리했습니다.핵심 요약먼저 Qwen 3.7과 3.6의 관계부터 짚어야 헷갈리지 않습니다. Qwen 3.7 Max는 2026년 5월 19일 알리바바가 공개한 클로즈드 API 전용 모델로, 다운로드하거나 로컬에서 돌릴 수 없습니다. 반면 Qwen 3.6 계열은 Apache 2.0 라이선스로 풀린 오픈웨이트라서 직접 내려받아 Ollama나 vLLM으로 실행할 수 있습니다. 이 글에서는 API 테스트는 Qwen 3.7 Max로, 로컬 실행은 Qwen 3.6으로 나눠서 다룹니다.한국어 지원 측면에서 Qwen 3.x.. 더보기

LangGraph로 프로덕션 AI 에이전트 만들기 실전 튜토리얼 에이전트를 처음 만들 때 대부분 LangChain 체인으로 시작합니다. 그런데 조금만 복잡해지면 문제가 생깁니다. 툴 호출 실패 시 재시도 로직이 없고, 중간에 크래시 나면 처음부터 다시 돌려야 하고, 사람이 개입할 수 있는 승인 단계를 넣으려면 커스텀 미들웨어를 통째로 짜야 하죠. LangGraph는 이 세 가지 문제를 전부 프레임워크 수준에서 해결합니다.핵심 요약LangGraph는 2026년 현재 AI 에이전트 프레임워크 중에서 사실상 표준으로 굳어진 도구입니다. 월 3,450만 건 다운로드에 Klarna, Uber, LinkedIn, JPMorgan이 실제 프로덕션에서 돌리고 있고, 2025년 10월 v1.0을 찍으면서 API도 안정화됐습니다.구조적으로 보면 LangGraph의 핵심 아이디어는 단순.. 더보기

이전 1 다음

티스토리툴바