본문 바로가기

반응형

분류 전체보기

SGLang PD 분리 배포 완전 가이드 — Prefill/Decode 분리로 처리량 5배 올리기 LLM 추론에는 두 단계가 있어요.Prefill은 입력 프롬프트 전체를 한 번에 처리하는 단계로, 연산 집약적이고 보통 수백에서 수천 토큰을 한 번에 처리하면서 KV 캐시를 생성해요.Decode는 그렇게 만들어진 KV 캐시를 매 스텝마다 읽으면서 토큰을 하나씩 생성하는 단계인데, 연산보다는 메모리에 부담이 크고 요청당 수십에서 수백 번 반복돼요.전통적인 통합 엔진에서는 이 두 단계가 같은 GPU에서 실행돼요. 그래서 두 가지 심각한 문제가 생겨요. 문제 1: Prefill 방해(Prefill Interruption)기존 통합 엔진에서는 디코딩이 한창 진행 중일 때 새 요청이 들어오면, 디코딩을 멈추고 프리필을 처리한 다음 다시 디코딩을 재개하는 식으로 동작해요. 이게 반복되면 토큰 생성이 계속 끊기면서 .. 더보기
SGLang launch_server 파라미터 완전 정리 python -m sglang.launch_server --help이 명령어 치면 100개 넘는 파라미터가 쏟아져요. 뭐가 뭔지 몰라서 그냥 기본값으로 쓰는 경우가 많은데, 파라미터를 제대로 알면 성능이 2~3배 차이 나요.전체 파라미터를 카테고리별로 완전 정리해 드릴게요.1. 모델 및 토크나이저--model-path (필수)모델 가중치 경로예요. 로컬 폴더 또는 HuggingFace repo ID를 받아요.# HuggingFace에서 다운로드python -m sglang.launch_server \ --model-path meta-llama/Llama-3.1-8B-Instruct# 로컬 폴더python -m sglang.launch_server \ --model-path /data/models/ll.. 더보기
SGLang 서빙에 대한 모든 것 — 설치부터 프로덕션까지 완전 가이드 2026년 현재 오픈소스 LLM 추론 엔진 중 실질적인 업계 표준은 SGLang이에요.xAI(Grok), NVIDIA, AMD, LinkedIn, Cursor, Oracle Cloud, Google Cloud, AWS가 프로덕션에 사용 중이고, 전 세계 40만 개 이상의 GPU에서 매일 수조 개의 토큰을 처리하고 있어요.근데 왜 vLLM을 놔두고 SGLang인가? 핵심은 하나예요."vLLM은 요청을 독립된 단위로 처리한다. SGLang은 요청을 프로그램으로 처리한다."이 철학 하나가 성능을 완전히 갈라요.SGLang이 빠른 이유 — 핵심 원리 3가지1. RadixAttention — KV 캐시 자동 재사용기존 추론 엔진의 문제를 먼저 이해해야 해요.일반 추론 엔진 (vLLM 포함):요청 A: [시스템 프.. 더보기
컨텍스트 엔지니어링 — 프롬프트 엔지니어링의 다음 단계 2025년 6월, Andrej Karpathy(전 OpenAI, Tesla AI 디렉터)가 X에 짧은 글 하나를 올렸어요."프롬프트 엔지니어링이라는 말은 우리가 실제로 하는 일을 너무 사소하게 만든다. 더 정확한 표현은 컨텍스트 엔지니어링이다."그리고 Shopify CEO 토비 뤼트케가 동의하며 이렇게 정의했어요."LLM이 그럴듯하게 문제를 풀 수 있도록 모든 컨텍스트를 제공하는 기술."이 두 발언 이후 AI 개발 커뮤니티에서 컨텍스트 엔지니어링이 2026년 가장 중요한 개념으로 자리 잡았어요.프롬프트 엔지니어링과 뭐가 다른가먼저 LLM을 컴퓨터로 비유해볼게요.LLM = CPU컨텍스트 윈도우 = RAM컨텍스트 엔지니어링 = 운영체제운영체제는 CPU가 작업할 때 RAM에 딱 필요한 데이터만 올려요. 너무 .. 더보기
RAG 데모는 잘 되는데 배포하면 망하는 이유 7가지 — 원인별 해결법, 프로덕션 RAG 완전 가이드 RAG 데모는 항상 잘 돼요.PDF 몇 개 넣고, 벡터 DB 연결하고, LLM 붙이면 마법처럼 답이 나와요. 팀이 흥분하고, 경영진이 빠른 배포를 요구해요.그리고 3개월 뒤, 시스템이 무너지기 시작해요.데이터가 많아지면서 검색이 틀리고, 답이 엉뚱하고, 비용이 폭증하고, 아무도 원인을 모르는 상황이 돼요.엔터프라이즈 RAG 구현의 40~72%가 첫 해 안에 실패해요. 모델이 나빠서가 아니에요. 아키텍처가 데모용으로 설계됐기 때문이에요.이번 글에서는 RAG가 실패하는 7가지 이유와 실전 해결책을 코드와 함께 정리해 드릴게요.실패 원인 1: 잘못된 청킹 전략가장 흔하고 가장 치명적인 실수예요. 문서를 고정 크기(512 토큰)로 자르면 이런 일이 생겨요.원본 문서:"환불 정책은 구매 후 30일 이내에 적용됩니.. 더보기
AI 코딩 툴 3대장 완전 비교 — Cursor vs Claude Code vs GitHub Copilot 2026년 개발자 설문 결과가 충격적이었어요.Claude Code "가장 사랑하는 툴" 46%. Cursor 19%. GitHub Copilot 9%.Claude Code가 출시 8개월 만에 1위를 차지했어요. 근데 단순히 "어떤 게 최고야?" 라는 질문은 틀린 질문이에요.세 툴은 완전히 다른 문제를 해결해요. 잘못 고르면 매일 시간을 낭비하게 돼요.세 툴의 핵심 철학한 줄로 정리하면 이래요.GitHub Copilot → 맞춤법 검사기 (입력하는 동안 도와줌)Cursor → 글쓰기 코치 (같이 편집함)Claude Code → 유능한 주니어 개발자 (혼자서 해결함)비유하면 이렇게요. 문서 작성할 때 맞춤법 검사기, 편집자, 대필 작가는 다 "글쓰기 도구"지만 완전히 달라요.GitH.. 더보기
Grok 5 완전 정리 — 6조 파라미터, AGI 10%, 역대 최대 AI의 진실 일론 머스크가 또 큰소리를 쳤어요."모든 지표에서 압도적으로 세계 최고의 AI."Grok 5. 6조 파라미터. AGI 달성 10% 확률. Q1 2026 출시 예고.근데 Q1이 지났어요. 아직 안 나왔어요.이번 글에서는 Grok 5가 진짜 뭔지, 머스크의 주장이 얼마나 믿을 만한지, 그리고 실제로 어떤 의미가 있는지 정리해 드릴게요.Grok 5가 뭔가xAI는 일론 머스크가 2023년 설립한 AI 회사예요. OpenAI에서 나온 연구자들을 중심으로 구성됐고, Tesla와 X(트위터) 데이터에 접근할 수 있다는 게 경쟁사 대비 독특한 강점이에요.Grok 1 → Grok 2 → Grok 3 → Grok 4 → Grok 4.20까지 빠른 속도로 업데이트해왔어요. 그리고 다음 세대가 Grok 5예요.스펙 — 뭘 주.. 더보기
Anthropic이 숨기려 했던 AI — Claude Mythos 유출 사건 완전 정리 2026년 3월 26일 밤, 보안 연구원 두 명이 인터넷에서 이상한 걸 발견했어요.공개 검색이 가능한 서버에 Anthropic의 미공개 블로그 포스트 수천 개가 올라와 있었어요. 그 안에는 아직 세상에 공개된 적 없는 AI 모델 이야기가 담겨 있었어요."지금까지 우리가 만든 것 중 가장 강력한 모델."이게 Claude Mythos 유출 사건의 시작이에요.어떻게 유출됐나Anthropic의 CMS(콘텐츠 관리 시스템) 설정 오류가 원인이었어요. 미공개 초안 블로그 포스트 약 3,000개가 공개 검색 가능한 데이터 캐시에 노출됐어요.LayerX Security의 Roy Paz와 케임브리지 대학의 Alexandre Pauwels가 이 데이터를 발견했어요. Fortune이 내용을 검토한 뒤 Anthropic에 통.. 더보기

반응형