본문 바로가기

반응형

전체 글

(172)
AI가 짠 코드 43%가 프로덕션에서 터진다 — Lightrun 200개 기업 조사 2026년 4월 14일, AI 코딩 붐에 찬물을 끼얹는 보고서가 나왔습니다.Lightrun이 미국, 영국, EU 대기업의 SRE와 DevOps 리더 200명을 대상으로 조사한 결과예요.핵심 수치:AI 생성 코드 변경의 43% →QA와 스테이징 통과 후에도 프로덕션에서 디버깅 필요"AI를 믿고 배포할 수 있다"고 답한 엔지니어링 리더: 0%숫자로 보는 현실88%:AI 생성 수정사항이 실제로 작동하는지 확인하는 데수동 재배포 2~3회 필요43%:QA/스테이징 통과했는데 프로덕션에서 디버깅 필요38%:개발자가 매주 디버깅, 검증, 트러블슈팅에 쓰는 시간(주 2일 낭비)97%:"AI SRE가 프로덕션에서 실제 무슨 일이 일어나는지제대로 보지 못한다"고 답한 엔지니어링 리더0%:"AI 생성 코드가 배포 후 올바르..
SGLang B300 GPU (SM103)에서 Qwen3.5 서빙 — Attention Backend B300 GPU에서 SGLang으로 Qwen3.5를 서빙하면서 어텐션 백엔드 설정을 이것저것 해봤습니다.환경GPU: NVIDIA B300 (SM103, Blackwell 계열)모델: Qwen3.5-4B (head_dim=256)프레임워크: SGLang (CUDA 12.9+)1차 시도 — FA4 + trtllm_mha--prefill-attention-backend fa4 \--attention-backend trtllm_mha에러:AssertionError: (head_dim, head_dim_v)=(256, 256) is not supported on SM100/SM110.head_dim must be between 8 and 128FA4는 head_dim 128까지만 지원해요. Qwen3.5는 256..
AI가 코드 작성 속도 올려도 배포는 안 빨라진다 팀에 Claude Code, Copilot 도입하면 이런 일이 생겨요.1~4주차: 개발자들 엄청 빨라진 것 같음. PR 2배로 올라옴2개월: PR 리뷰 큐가 쌓이기 시작. 시니어들 하루종일 리뷰만 함3개월: 버그 리포트 증가. CI는 통과했는데 프로덕션에서 터짐4개월: 리드 타임이 AI 도입 전보다 길어짐Faros AI가 10,000명 이상 개발자, 1,255팀을 분석한 결과예요.숫자가 뭐라고 하나AI 도입 후 팀 지표:PR 머지 수: +98% (2배 증가) ✅ 좋아 보임PR 크기: +154% (1.5배 더 큼) ⚠️PR 리뷰 시간: +91% (거의 2배) 🚨버그 발생률: +9% per developer 🚨DORA 메트릭: 변화 없음 🤔회사..
SGLang Attention Backend 완전 비교 — Triton, FlashInfer, FA3, TRTLLM SGLang으로 서버 띄울 때 이 파라미터를 보게 돼요.python -m sglang.launch_server \ --model-path Qwen/Qwen3.5-9B-Instruct \ --attention-backend ??? # 뭘 써야 하지?옵션이 여러 개예요.tritonflashinferfa3 (flashattention3)trtllm_mhatrtllm_mlafa4 (최신)각각이 뭔지, 언제 써야 하는지 정리할게요.백엔드가 뭔가Attention 계산을 어떤 커널(저수준 GPU 코드)로 처리할지 결정하는 거예요.SGLang 서버 ↓Attention Backend 선택 ↓┌──────────────────────────────────────┐│ Triton │ FlashInfer..
FlashAttention 완전 정리 — LLM이 긴 문서를 처리할 수 있는 진짜 이유 LLM이 긴 문서를 처리할 때 왜 느려질까요?GPT-3 컨텍스트: 2,048 토큰GPT-4 컨텍스트: 128,000 토큰Llama 3: 1,000,000 토큰2년 만에 500배 늘어났어요.이게 가능해진 핵심 기술이 FlashAttention이에요.Attention이 뭔가LLM은 텍스트를 읽을 때 모든 토큰이 다른 모든 토큰과 얼마나 관련있는지 계산해요.입력: "나는 사과를 먹었다"각 토큰이 다른 토큰과의 관계 점수 계산:"나는" ↔ "사과를": 0.3"나는" ↔ "먹었다": 0.8"사과를" ↔ "먹었다": 0.7...수식으로는 이래요.Attention(Q, K, V) = softmax(QK^T / √d_k) × VQ(Query): "지금 처리 중인 토큰"K(Key): "비교할 모든 토큰"V(Val..
vLLM, SGLang이 빠른 이유 — Continuous Batching 원리와 실전 LLM 서빙 서버를 직접 구축하면 처음에 이런 상황이 생겨요.# 단순하게 구현한 LLM 서버@app.post("/generate")async def generate(request): output = model.generate(request.prompt) return output요청 하나하나를 순서대로 처리해요. GPU 사용률 확인해보면 이래요.nvidia-smi:GPU 사용률: 15~30%GPU 자원의 70~85%를 낭비하고 있어요. Continuous Batching이 이걸 해결해요.LLM 추론의 두 단계이해하려면 LLM이 어떻게 토큰을 생성하는지 알아야 해요.Prefill 단계 (입력 처리):"안녕하세요, 오늘 날씨는" → 한번에 병렬 처리→ 계산 집약적 (compute-bound)→ 첫 ..
SLM 실전 가이드 — Gemma 4, Qwen3.5, Phi-4로 API 비용 95% 줄이는 법 Claude API 쓰다 보면 월말에 이런 청구서가 날아와요.API 비용: $3,200예산: $500원인은 단순해요. 모든 요청에 수천억 파라미터 모델을 쓰고 있어서예요.고객이 "배송 얼마나 걸려요?"라고 물어봐도 Claude Opus가 답하고 있어요.SLM(Small Language Model)은 이걸 해결해요.SLM이 뭔가LLM: 100B ~ 1T+ 파라미터SLM: 500M ~ 10B 파라미터LLM:→ H100 GPU 여러 장 필요→ API 비용 높음→ 응답 느림SLM:→ RTX 4070 노트북 1대로 가능→ 로컬 실행 시 비용 거의 0→ 응답 빠름2026년 기준으로 프로덕션 AI 업무의 80%는 SLM으로 충분해요.2026년 주요 SLM 정리Microsoft Phi-4 Mini (3.8B)특징:- ..
Qwen 3.5 완전 분석 — 397B 파라미터인데 왜 저렴하고 빠른가 2026년 2월 16일, Alibaba가 Qwen 3.5를 공개했어요.공개하자마자 오픈소스 AI 커뮤니티가 뒤집혔어요.Qwen3.5-9B → GPT-OSS-120B(13배 큰 모델) 성능 능가Qwen3.5-35B-A3B → 이전 세대 235B 플래그십 능가Qwen3.5-397B-A17B → GPT-5.2, Gemini 3 Pro와 정면 승부Apache 2.0 → 상업적 사용 완전 무료핵심 — MoE 아키텍처가 뭔가Qwen 3.5의 핵심은 Sparse Mixture-of-Experts(희소 혼합 전문가) 구조예요.일반 LLM:요청 → 전체 파라미터 사용 → 응답(100% 파라미터 항상 활성화)Qwen 3.5 MoE:요청 → 관련 전문가 그룹만 활성화 → 응답(총 397B 중 17B만 활성화)활성화 비율: ..

반응형