본문 바로가기

전체 글

(172)

SGLang launch_server 파라미터 완전 정리 python -m sglang.launch_server --help이 명령어 치면 100개 넘는 파라미터가 쏟아져요. 뭐가 뭔지 몰라서 그냥 기본값으로 쓰는 경우가 많은데, 파라미터를 제대로 알면 성능이 2~3배 차이 나요.전체 파라미터를 카테고리별로 완전 정리해 드릴게요.1. 모델 및 토크나이저--model-path (필수)모델 가중치 경로예요. 로컬 폴더 또는 HuggingFace repo ID를 받아요.# HuggingFace에서 다운로드python -m sglang.launch_server \ --model-path meta-llama/Llama-3.1-8B-Instruct# 로컬 폴더python -m sglang.launch_server \ --model-path /data/models/ll..

SGLang 서빙에 대한 모든 것 — 설치부터 프로덕션까지 완전 가이드 2026년 현재 오픈소스 LLM 추론 엔진 중 실질적인 업계 표준은 SGLang이에요.xAI(Grok), NVIDIA, AMD, LinkedIn, Cursor, Oracle Cloud, Google Cloud, AWS가 프로덕션에 사용 중이고, 전 세계 40만 개 이상의 GPU에서 매일 수조 개의 토큰을 처리하고 있어요.근데 왜 vLLM을 놔두고 SGLang인가? 핵심은 하나예요."vLLM은 요청을 독립된 단위로 처리한다. SGLang은 요청을 프로그램으로 처리한다."이 철학 하나가 성능을 완전히 갈라요.SGLang이 빠른 이유 — 핵심 원리 3가지1. RadixAttention — KV 캐시 자동 재사용기존 추론 엔진의 문제를 먼저 이해해야 해요.일반 추론 엔진 (vLLM 포함):요청 A: [시스템 프..

AI 에이전트 모니터링 완전 가이드 — LangSmith vs Langfuse 실전 비교 프로덕션에서 AI 에이전트가 이상한 답을 내놨어요.고객이 계좌 잔액을 물었는데 에이전트가 숫자를 지어냈어요. 4번의 툴 호출, 2개의 서브 에이전트. 어디서 망가졌는지 로그엔 최종 출력만 있어요.일반 로그:[ERROR] Response: "잔액은 1,250,000원입니다" ← 틀림. 근데 왜?관측성 툴의 트레이스:[Trace: user_query] ├─ [Tool: get_account_id] → 성공 (32ms) ├─ [Tool: get_balance] → 실패 (타임아웃) ← 여기서 망가짐 ├─ [LLM: fallback_response] → 환각 발생 └─ [Output] "잔액은 1,250,000원입니다"관측성이 없으면 5단계 에이전트 디버깅은 추측이에요. 트레이스가 있으면 정확히 어느 단..

컨텍스트 엔지니어링 — 프롬프트 엔지니어링의 다음 단계 2025년 6월, Andrej Karpathy(전 OpenAI, Tesla AI 디렉터)가 X에 짧은 글 하나를 올렸어요."프롬프트 엔지니어링이라는 말은 우리가 실제로 하는 일을 너무 사소하게 만든다. 더 정확한 표현은 컨텍스트 엔지니어링이다."그리고 Shopify CEO 토비 뤼트케가 동의하며 이렇게 정의했어요."LLM이 그럴듯하게 문제를 풀 수 있도록 모든 컨텍스트를 제공하는 기술."이 두 발언 이후 AI 개발 커뮤니티에서 컨텍스트 엔지니어링이 2026년 가장 중요한 개념으로 자리 잡았어요.프롬프트 엔지니어링과 뭐가 다른가먼저 LLM을 컴퓨터로 비유해볼게요.LLM = CPU컨텍스트 윈도우 = RAM컨텍스트 엔지니어링 = 운영체제운영체제는 CPU가 작업할 때 RAM에 딱 필요한 데이터만 올려요. 너무 ..

RAG 데모는 잘 되는데 배포하면 망하는 이유 7가지 — 원인별 해결법, 프로덕션 RAG 완전 가이드 RAG 데모는 항상 잘 돼요.PDF 몇 개 넣고, 벡터 DB 연결하고, LLM 붙이면 마법처럼 답이 나와요. 팀이 흥분하고, 경영진이 빠른 배포를 요구해요.그리고 3개월 뒤, 시스템이 무너지기 시작해요.데이터가 많아지면서 검색이 틀리고, 답이 엉뚱하고, 비용이 폭증하고, 아무도 원인을 모르는 상황이 돼요.엔터프라이즈 RAG 구현의 40~72%가 첫 해 안에 실패해요. 모델이 나빠서가 아니에요. 아키텍처가 데모용으로 설계됐기 때문이에요.이번 글에서는 RAG가 실패하는 7가지 이유와 실전 해결책을 코드와 함께 정리해 드릴게요.실패 원인 1: 잘못된 청킹 전략가장 흔하고 가장 치명적인 실수예요. 문서를 고정 크기(512 토큰)로 자르면 이런 일이 생겨요.원본 문서:"환불 정책은 구매 후 30일 이내에 적용됩니..

AI 네이티브 앱 아키텍처 설계 — 처음부터 AI를 고려한 풀스택 구조 (with Supabase) "AI 기능 추가해야 해"라는 말을 들으면 많은 개발자가 기존 앱에 LLM API 호출을 끼워 넣어요.# 이렇게 하면 안 돼요@app.post("/chat")def chat(message: str): response = openai.chat.completions.create(...) # 그냥 때려넣기 return response이렇게 만들면 사용자가 100명만 돼도 무너져요. LLM은 일반 API 호출과 물리학이 달라요.일반 API: 10~100ms, 결정론적, 토큰 비용 없음LLM API: 500ms~30초, 확률론적, 토큰마다 비용 발생이 차이가 아키텍처 전체를 바꿔요. 이번 글에서는 처음부터 AI를 고려한 풀스택 구조를 실전 코드와 함께 정리해 드릴게요.전체 아키텍처 구조백엔드 —..

AI 코딩 툴 3대장 완전 비교 — Cursor vs Claude Code vs GitHub Copilot 2026년 개발자 설문 결과가 충격적이었어요.Claude Code "가장 사랑하는 툴" 46%. Cursor 19%. GitHub Copilot 9%.Claude Code가 출시 8개월 만에 1위를 차지했어요. 근데 단순히 "어떤 게 최고야?" 라는 질문은 틀린 질문이에요.세 툴은 완전히 다른 문제를 해결해요. 잘못 고르면 매일 시간을 낭비하게 돼요.세 툴의 핵심 철학한 줄로 정리하면 이래요.GitHub Copilot → 맞춤법 검사기 (입력하는 동안 도와줌)Cursor → 글쓰기 코치 (같이 편집함)Claude Code → 유능한 주니어 개발자 (혼자서 해결함)비유하면 이렇게요. 문서 작성할 때 맞춤법 검사기, 편집자, 대필 작가는 다 "글쓰기 도구"지만 완전히 달라요.GitH..

멀티에이전트 시스템 실전 구축 — CrewAI vs LangGraph vs AutoGen 완전 비교 AI 에이전트 하나로 복잡한 업무를 처리하는 데 한계가 생겼어요."에이전트가 리서치도 하고, 분석도 하고, 글쓰기도 하고, 팩트체크도 해야 하는데 한 명한테 다 시키면 성능이 떨어진다."해결책은 멀티에이전트 시스템이에요. 각자 전문 역할을 가진 에이전트들이 협력해서 작업을 처리하는 구조예요.그런데 프레임워크가 너무 많아요. CrewAI, LangGraph, AutoGen — 다 비슷해 보이지만 철학이 완전히 달라요. 잘못 고르면 몇 주치 리팩토링이 기다려요.이번 글에서는 세 프레임워크를 실전 코드와 함께 완전 비교해 드릴게요.세 프레임워크의 핵심 철학한 줄로 정리하면 이래요.CrewAI → 팀처럼 일한다 (역할 기반)LangGraph → 그래프처럼 흐른다 (상태 기계)AutoGen → 대화로 협력한다 ..

이전 1 ··· 14 15 16 17 18 19 20 ··· 22 다음

티스토리툴바