본문 바로가기

LLM

(51)

vLLM, SGLang이 빠른 이유 — Continuous Batching 원리와 실전 LLM 서빙 서버를 직접 구축하면 처음에 이런 상황이 생겨요.# 단순하게 구현한 LLM 서버@app.post("/generate")async def generate(request): output = model.generate(request.prompt) return output요청 하나하나를 순서대로 처리해요. GPU 사용률 확인해보면 이래요.nvidia-smi:GPU 사용률: 15~30%GPU 자원의 70~85%를 낭비하고 있어요. Continuous Batching이 이걸 해결해요.LLM 추론의 두 단계이해하려면 LLM이 어떻게 토큰을 생성하는지 알아야 해요.Prefill 단계 (입력 처리):"안녕하세요, 오늘 날씨는" → 한번에 병렬 처리→ 계산 집약적 (compute-bound)→ 첫 ..

SLM 실전 가이드 — Gemma 4, Qwen3.5, Phi-4로 API 비용 95% 줄이는 법 Claude API 쓰다 보면 월말에 이런 청구서가 날아와요.API 비용: $3,200예산: $500원인은 단순해요. 모든 요청에 수천억 파라미터 모델을 쓰고 있어서예요.고객이 "배송 얼마나 걸려요?"라고 물어봐도 Claude Opus가 답하고 있어요.SLM(Small Language Model)은 이걸 해결해요.SLM이 뭔가LLM: 100B ~ 1T+ 파라미터SLM: 500M ~ 10B 파라미터LLM:→ H100 GPU 여러 장 필요→ API 비용 높음→ 응답 느림SLM:→ RTX 4070 노트북 1대로 가능→ 로컬 실행 시 비용 거의 0→ 응답 빠름2026년 기준으로 프로덕션 AI 업무의 80%는 SLM으로 충분해요.2026년 주요 SLM 정리Microsoft Phi-4 Mini (3.8B)특징:- ..

Qwen 3.5 완전 분석 — 397B 파라미터인데 왜 저렴하고 빠른가 2026년 2월 16일, Alibaba가 Qwen 3.5를 공개했어요.공개하자마자 오픈소스 AI 커뮤니티가 뒤집혔어요.Qwen3.5-9B → GPT-OSS-120B(13배 큰 모델) 성능 능가Qwen3.5-35B-A3B → 이전 세대 235B 플래그십 능가Qwen3.5-397B-A17B → GPT-5.2, Gemini 3 Pro와 정면 승부Apache 2.0 → 상업적 사용 완전 무료핵심 — MoE 아키텍처가 뭔가Qwen 3.5의 핵심은 Sparse Mixture-of-Experts(희소 혼합 전문가) 구조예요.일반 LLM:요청 → 전체 파라미터 사용 → 응답(100% 파라미터 항상 활성화)Qwen 3.5 MoE:요청 → 관련 전문가 그룹만 활성화 → 응답(총 397B 중 17B만 활성화)활성화 비율: ..

LLM 프루닝 완전 정리 — 모델 크기 40% 줄이면서 성능 유지하는 법 LLM을 로컬에서 돌리거나 서버에 배포할 때 가장 큰 문제는 크기예요.Llama 3.1 70B: 140GB VRAM 필요 → A100 2장 이상Llama 3.1 8B: 16GB VRAM 필요 → RTX 4080 1장근데 70B 성능이 필요하면?→ 프루닝으로 70B를 40~50B로 줄이면 성능은 거의 유지하면서 VRAM 40% 절약프루닝은 모델에서 중요도가 낮은 가중치를 제거하는 기술이에요.왜 프루닝이 가능한가LLM의 파라미터 전부가 실제로 중요한 건 아니에요.연구 결과:- LLM 가중치의 40~60%는 거의 활성화 안 됨- 특정 Attention Head는 제거해도 성능 변화 거의 없음- 일부 FFN 레이어는 중복된 정보를 처리함→ 이런 불필요한 부분을 제거해도 모델이 대부분의 능력을 유지함프..

Mac TurboQuant 실전 가이드 — 쓰기 전vs후 비교 Google이 TurboQuant 논문을 ICLR 2026에서 발표했어요. 근데 공식 코드는 아직 없어요. Q2 2026 출시 예정이에요.그런데 논문 공개 48시간 만에 커뮤니티가 PyTorch 구현체를 만들어버렸고, 2주 만에 Mac에서 104B 모델을 돌리는 데까지 왔어요.그중 Apple Silicon에 가장 최적화된 게 turboquant_plus예요. TheTom이라는 개발자가 만든 커뮤니티 구현체로, MLX 백엔드 지원, Sparse V 최적화, 레이어 보호 기능까지 추가된 버전이에요. 공식 구현체가 나오기 전까지 Mac 사용자에게 가장 실용적인 선택이에요.설치git clone https://github.com/TheTom/turboquant_pluscd turboquant_pluspip ins..

Anthropic이 가장 강력한 모델을 공개하지 않은 이유 — Mythos Preview 완전 분석 2026년 4월 7일, Anthropic이 사상 처음으로 출시하지 않을 모델의 244페이지 시스템 카드를 공개했어요.모델 이름은 Claude Mythos Preview.공개하지 않는 이유는 단 하나예요."이 모델은 해킹을 할 수 있다."Mythos가 발견한 것들Anthropic 레드팀이 지난 몇 주간 Mythos Preview를 돌린 결과예요.발견한 것:모든 주요 운영체제(Windows, macOS, Linux, FreeBSD 등)에서 제로데이 취약점 발견모든 주요 웹브라우저에서 제로데이 취약점 발견발견된 취약점 수: 수천 개, 다수가 Critical 등급발견된 취약점의 99% 이상이 아직 패치 안 됨대표 사례 — 17년된 FreeBSD 취약점CVE-2026-4747:- FreeBSD NFS에 존재하던 ..

Meta Muse Spark 발표 — Llama 이후 독자 모델 2026년 4월 8일, Meta가 조용히 AI 역사를 다시 썼어요.Muse Spark — Meta Superintelligence Labs의 첫 번째 모델이에요. 코드명은 "아보카도(Avocado)". 개발 기간은 딱 9개월이에요.그리고 이 발표는 단순한 모델 출시가 아니에요. Meta가 지난 5년간 쌓아온 오픈소스 전략을 사실상 버린다는 선언이에요.왜 Llama를 버렸나Llama 4의 참패2025년 4월, Meta는 Llama 4를 출시했어요. 결과는 처참했어요.개발자 커뮤니티의 반응은 "실망스럽다"였고, ChatGPT나 Claude와 비교해서 성능이 뒤처진다는 평가가 쏟아졌어요. 더 심각한 건 Meta가 벤치마크 조작 의혹까지 받았다는 거예요. 일반 사용자에게 제공한 버전보다 더 좋은 버전으로 벤치마..

Speculative Decoding 완전 정리 — 추론 속도 2~3배 올리는 법 LLM 디코딩의 근본적인 병목은 이거예요."토큰을 한 번에 하나씩만 생성할 수 있다."매 스텝마다 전체 모델을 한 번 돌려야 해요. 70B 모델이면 매 토큰마다 140GB 가중치를 전부 읽어야 해요. GPU가 아무리 빨라도 메모리 대역폭이 병목이에요.Speculative Decoding은 이 문제를 투기(추측) 로 해결해요.핵심 아이디어기존 방식:[큰 모델] → 토큰1 → [큰 모델] → 토큰2 → [큰 모델] → 토큰3(매번 느린 큰 모델 호출)Speculative Decoding:[작은 드래프트 모델] → 토큰1,2,3,4,5 빠르게 예측[큰 검증 모델] → 5개 토큰을 한 번에 검증→ 맞으면 5개 한꺼번에 채택→ 틀린 것부터 버리고 큰 모델이 수정핵심은 검증이 생성보다 훨씬 빠르다는 점이에요. 큰 ..

이전 1 2 3 4 5 6 7 다음

티스토리툴바