본문 바로가기

반응형

전체 글

(172)
Claude Managed Agents 완전 분석 — 에이전트 배포가 며칠 만에 가능해진 이유 2026년 4월 8일, Anthropic이 공개 베타로 출시했어요.한 줄 요약:"에이전트 만드는 데 수개월 걸리던 인프라 작업을 Anthropic이 대신 다 해줄게."문제 — 에이전트 배포가 왜 이렇게 힘들었나지금까지 AI 에이전트를 프로덕션에 배포하려면 에이전트 자체 외에도 온갖 인프라를 직접 구축해야 했어요.기존 에이전트 배포:✅ 에이전트 로직 개발❌ 보안 샌드박스 컨테이너 설정❌ 세션 상태 관리 (중간에 크래시나면 데이터 날아감)❌ 툴 오케스트레이션❌ 퍼미션/인증 시스템❌ 모니터링/트레이싱❌ 스케일링 인프라→ 개발 기간: 수개월특히 기존 구조는 세션 + 하네스 + 샌드박스가 하나의 컨테이너에 묶여 있었어요. 크래시 한 번이면 세션 데이터 전체가 날아갔고, 디버깅하려면 사용자 데이터가 담긴 컨테이너에..
Meta Muse Spark 발표 — Llama 이후 독자 모델 2026년 4월 8일, Meta가 조용히 AI 역사를 다시 썼어요.Muse Spark — Meta Superintelligence Labs의 첫 번째 모델이에요. 코드명은 "아보카도(Avocado)". 개발 기간은 딱 9개월이에요.그리고 이 발표는 단순한 모델 출시가 아니에요. Meta가 지난 5년간 쌓아온 오픈소스 전략을 사실상 버린다는 선언이에요.왜 Llama를 버렸나Llama 4의 참패2025년 4월, Meta는 Llama 4를 출시했어요. 결과는 처참했어요.개발자 커뮤니티의 반응은 "실망스럽다"였고, ChatGPT나 Claude와 비교해서 성능이 뒤처진다는 평가가 쏟아졌어요. 더 심각한 건 Meta가 벤치마크 조작 의혹까지 받았다는 거예요. 일반 사용자에게 제공한 버전보다 더 좋은 버전으로 벤치마..
Speculative Decoding 완전 정리 — 추론 속도 2~3배 올리는 법 LLM 디코딩의 근본적인 병목은 이거예요."토큰을 한 번에 하나씩만 생성할 수 있다."매 스텝마다 전체 모델을 한 번 돌려야 해요. 70B 모델이면 매 토큰마다 140GB 가중치를 전부 읽어야 해요. GPU가 아무리 빨라도 메모리 대역폭이 병목이에요.Speculative Decoding은 이 문제를 투기(추측) 로 해결해요.핵심 아이디어기존 방식:[큰 모델] → 토큰1 → [큰 모델] → 토큰2 → [큰 모델] → 토큰3(매번 느린 큰 모델 호출)Speculative Decoding:[작은 드래프트 모델] → 토큰1,2,3,4,5 빠르게 예측[큰 검증 모델] → 5개 토큰을 한 번에 검증→ 맞으면 5개 한꺼번에 채택→ 틀린 것부터 버리고 큰 모델이 수정핵심은 검증이 생성보다 훨씬 빠르다는 점이에요. 큰 ..
KV Cache 완전 정리 — PagedAttention vs RadixAttention, SGLang이 빠른 이유 LLM이 토큰을 생성할 때마다 이전 토큰들의 중간 연산 결과를 저장해 두는 게 KV 캐시예요. 없으면 매 토큰마다 처음부터 다시 계산해야 해요.근데 이 KV 캐시를 어떻게 관리하느냐에 따라 성능이 완전히 달라져요. vLLM과 SGLang은 서로 다른 방식으로 이 문제를 풀어요.KV 캐시가 뭔가트랜스포머의 어텐션 레이어는 매 스텝마다 이전 토큰들의 Key/Value 벡터를 참조해요.1번째 토큰 생성: [토큰1] KV 계산2번째 토큰 생성: [토큰1, 토큰2] — 토큰1 KV 재계산하면 낭비!KV 캐시:1번째 토큰 생성: [토큰1] KV 계산 → 저장2번째 토큰 생성: 저장된 토큰1 KV 재사용 + 토큰2 KV만 계산→ 계산량 대폭 감소문제는 KV 캐시가 메모리를 많이 먹는다는 거예요.Llama-3.1-8B..
LLM 지식 증류(Knowledge Distillation) 완전 정리 — 큰 모델의 지식을 작은 모델에 이식하는 법 GPT-4급 성능을 원하지만 H100 서버 비용은 감당 못해요. 이 모순을 해결하는 게 지식 증류예요."큰 모델(선생)이 배운 걸 작은 모델(학생)한테 가르친다."DeepSeek-R1-Distill-Llama-8B가 이 방식으로 만들어졌어요. DeepSeek R1(671B)의 추론 능력을 8B 모델에 이식한 거예요.핵심 개념 — 소프트 레이블이 왜 강력한가일반 학습은 정답만 알려줘요.하드 레이블: "답은 A야" (0 또는 1)소프트 레이블: "A가 70%, B가 20%, C가 10%"→ A가 맞지만 B와도 가까움을 알 수 있음→ 클래스 간 관계 정보가 담겨 있음큰 모델의 소프트 레이블(로짓 분포)에는 단순 정답보다 훨씬 풍부한 정보가 있어요. 학생 모델은 이걸 배워서 실제보다 훨씬 강해져요.증류의 3가지..
LoRA / QLoRA 완전 가이드 — LLM 파인튜닝을 저렴하게 하는 법 70B 모델을 처음부터 파인튜닝하면 H100 4~8개, 수십만 달러가 필요해요.LoRA/QLoRA를 쓰면 RTX 4090 한 장으로, 몇 시간 안에, $10 정도 비용으로 동일한 작업이 가능해요.왜 풀 파인튜닝 대신 LoRA인가LLM을 풀 파인튜닝하면 수십억 개의 파라미터를 전부 업데이트해요. 메모리와 연산이 엄청나게 필요하죠.LoRA의 핵심 아이디어는 이래요."모델을 업데이트할 때 변화량 자체가 저랭크(low-rank)다."즉, 수십억 개 파라미터를 다 바꾸는 게 아니라 변화량을 표현하는 작은 행렬 2개만 학습해요.풀 파인튜닝:W (d×d 행렬 전체) 업데이트 → 수백만 GBLoRA:W' = W + BAA: (r×d), B: (d×r) — r은 보통 8~64→ 학습 파라미터가 0.1~1%로 줄어듦기존 ..
LLM 양자화 완전 정리 — FP8, AWQ, GPTQ, GGUF 차이와 선택법 70B 파라미터 모델을 FP16으로 그냥 올리면 GPU 메모리가 140GB 필요해요. H100 두 개가 있어야 겨우 올라가요.양자화(Quantization)는 이 문제를 해결해요.FP16 (기본): 70B 모델 = 140GB VRAM → H100 2개 필요INT8: 70B 모델 = 70GB VRAM → H100 1개로 가능INT4 (4비트): 70B 모델 = 35GB VRAM → A100 1개로 가능근데 양자화 방식이 너무 많아요. FP8, AWQ, GPTQ, GGUF, BitsAndBytes, MXFP4... 뭐가 뭔지 헷갈려요.이번 글에서 각 방식이 어떻게 다르고 언제 써야 하는지 완전 정리해 드릴게요.양자화란 무엇인가LLM의 가중치는 수천억 개의 숫자예요. 기본적..
SGLang PD 분리 배포 완전 가이드 — Prefill/Decode 분리로 처리량 5배 올리기 LLM 추론에는 두 단계가 있어요.Prefill (프리필):- 입력 프롬프트 전체를 처리- 연산 집약적 (Compute-bound)- KV 캐시 생성- 보통 수백~수천 토큰을 한 번에 처리Decode (디코드):- 토큰을 하나씩 생성- 메모리 집약적 (Memory-bound)- KV 캐시를 매 스텝마다 읽음- 요청당 수십~수백 번 반복전통적인 통합 엔진에서는 이 두 단계가 같은 GPU에서 경쟁해요. 그래서 두 가지 심각한 문제가 생겨요.문제 1: Prefill 방해(Prefill Interruption)기존 통합 엔진:[디코딩 중...토큰 생성 중...] ↑ 새 요청 들어옴! ↓[프리필 처리... (디코딩 멈춤)][디코딩 재개...][프리필 처리... (또 멈춤)]..

반응형