'분류 전체보기' 카테고리의 글 목록 (38 Page)

본문 바로가기

분류 전체보기

AI가 코드 작성 속도 올려도 배포는 안 빨라진다 팀에 Claude Code, Copilot 도입하면 이런 일이 생겨요.1~4주차: 개발자들 엄청 빨라진 것 같음. PR 2배로 올라옴2개월: PR 리뷰 큐가 쌓이기 시작. 시니어들 하루종일 리뷰만 함3개월: 버그 리포트 증가. CI는 통과했는데 프로덕션에서 터짐4개월: 리드 타임이 AI 도입 전보다 길어짐Faros AI가 10,000명 이상 개발자, 1,255팀을 분석한 결과예요.숫자가 뭐라고 하나AI 도입 후 팀 지표:PR 머지 수: +98% (2배 증가) ✅ 좋아 보임PR 크기: +154% (1.5배 더 큼) ⚠️PR 리뷰 시간: +91% (거의 2배) 🚨버그 발생률: +9% per developer 🚨DORA 메트릭: 변화 없음 🤔회사.. 더보기

SGLang Attention Backend 완전 비교 — Triton, FlashInfer, FA3, TRTLLM SGLang으로 서버 띄울 때 이 파라미터를 보게 돼요.python -m sglang.launch_server \ --model-path Qwen/Qwen3.5-9B-Instruct \ --attention-backend ??? # 뭘 써야 하지?옵션이 여러 개예요.tritonflashinferfa3 (flashattention3)trtllm_mhatrtllm_mlafa4 (최신)각각이 뭔지, 언제 써야 하는지 정리할게요.백엔드가 뭔가Attention 계산을 어떤 커널(저수준 GPU 코드)로 처리할지 결정하는 거예요.SGLang 서버 ↓Attention Backend 선택 ↓┌──────────────────────────────────────┐│ Triton │ FlashInfer.. 더보기

vLLM, SGLang이 빠른 이유 — Continuous Batching 원리와 실전 LLM 서빙 서버를 직접 구축하면 처음에 이런 상황이 생겨요.# 단순하게 구현한 LLM 서버@app.post("/generate")async def generate(request): output = model.generate(request.prompt) return output요청 하나하나를 순서대로 처리해요. GPU 사용률 확인해보면 이래요.nvidia-smi:GPU 사용률: 15~30%GPU 자원의 70~85%를 낭비하고 있어요. Continuous Batching이 이걸 해결해요.LLM 추론의 두 단계이해하려면 LLM이 어떻게 토큰을 생성하는지 알아야 해요.Prefill 단계 (입력 처리):"안녕하세요, 오늘 날씨는" → 한번에 병렬 처리→ 계산 집약적 (compute-bound)→ 첫 .. 더보기

SLM 실전 가이드 — Gemma 4, Qwen3.5, Phi-4로 API 비용 95% 줄이는 법 Claude API 쓰다 보면 월말에 이런 청구서가 날아와요.API 비용: $3,200예산: $500원인은 단순해요. 모든 요청에 수천억 파라미터 모델을 쓰고 있어서예요.고객이 "배송 얼마나 걸려요?"라고 물어봐도 Claude Opus가 답하고 있어요.SLM(Small Language Model)은 이걸 해결해요.SLM이 뭔가LLM: 100B ~ 1T+ 파라미터SLM: 500M ~ 10B 파라미터LLM:→ H100 GPU 여러 장 필요→ API 비용 높음→ 응답 느림SLM:→ RTX 4070 노트북 1대로 가능→ 로컬 실행 시 비용 거의 0→ 응답 빠름2026년 기준으로 프로덕션 AI 업무의 80%는 SLM으로 충분해요.2026년 주요 SLM 정리Microsoft Phi-4 Mini (3.8B)특징:- .. 더보기

Qwen 3.5 완전 분석 — 397B 파라미터인데 왜 저렴하고 빠른가 2026년 2월 16일, Alibaba가 Qwen 3.5를 공개했어요.공개하자마자 오픈소스 AI 커뮤니티가 뒤집혔어요.Qwen3.5-9B → GPT-OSS-120B(13배 큰 모델) 성능 능가Qwen3.5-35B-A3B → 이전 세대 235B 플래그십 능가Qwen3.5-397B-A17B → GPT-5.2, Gemini 3 Pro와 정면 승부Apache 2.0 → 상업적 사용 완전 무료핵심 — MoE 아키텍처가 뭔가Qwen 3.5의 핵심은 Sparse Mixture-of-Experts(희소 혼합 전문가) 구조예요.일반 LLM:요청 → 전체 파라미터 사용 → 응답(100% 파라미터 항상 활성화)Qwen 3.5 MoE:요청 → 관련 전문가 그룹만 활성화 → 응답(총 397B 중 17B만 활성화)활성화 비율: .. 더보기

AI 코딩 툴이 시니어 개발자를 19% 느리게 만든다 — METR 연구 완전 분석 2025년 7월, AI 업계를 발칵 뒤집어 놓은 연구가 나왔어요.METR(Model Evaluation & Threat Research)이라는 AI 안전 연구 기관이 실험을 했어요.실험 설계:- 참가자: 숙련된 오픈소스 개발자 16명- 작업: 본인이 수년간 기여해온 레포지토리의 실제 이슈 246개- 코드베이스: 평균 100만 줄 이상, GitHub 스타 22,000개 이상- 방법: 무작위로 AI 허용/금지 조건 배정결과:AI 도구 사용 시 → 19% 더 느림진짜 충격적인 건 인식 차이실험 전 개발자 예상:"AI 쓰면 24% 빨라질 것 같아요"실험 후 개발자 인식:"AI 쓰니까 20% 빨라진 것 같아요"실제 측정값:19% 더 느림인식과 현실의 갭: 39%pAI 때문에 느려졌는데, 개발자 본인은 빨라졌다고 .. 더보기

n8n으로 AI 워크플로우 자동화 — 코드 없이 Claude 에이전트 파이프라인 만들기 MCP로 Claude Code에 여러 서비스를 연결하는 건 강력해요. 근데 한 가지 한계가 있어요.Claude Code MCP:→ 내가 터미널 열고 명령 입력할 때만 동작n8n:→ "매일 오전 9시에 자동 실행"→ "GitHub 이슈 올라오면 자동 실행"→ "Slack 메시지 오면 자동 실행"→ 내가 없어도 24/7 돌아감n8n은 자동화 플로우를 시각적으로 만드는 도구예요. 여기에 Claude AI를 붙이면 진짜 자율 에이전트 파이프라인이 돼요.n8n이 뭔가노드 기반 자동화 툴→ 400개 이상 서비스 연동→ 시각적 드래그앤드롭 인터페이스→ 자체 호스팅 가능 (데이터 외부 유출 없음)→ 무료 오픈소스 (self-host 기준)→ 2026년 기준 AI Agent 노드 내장Zapier랑 비슷한데 훨씬 강력하고.. 더보기

Vibe Coding은 끝났다 — Karpathy가 선언한 Agentic Engineering 시대 2025년 2월, Andrej Karpathy가 트위터에 이런 글을 올렸어요."AI한테 코드 짜달라고 하고, 에러 나면 에러 붙여넣고, 다시 돌려보는 새로운 코딩 방식이 있어. Vibe Coding이라고 부를게."개발자들이 열광했어요. AI한테 다 맡기고 그냥 돌아가면 됐으니까요.그리고 딱 1년 후인 2026년 2월, Karpathy가 다시 말했어요."Vibe Coding은 이제 구식이야. 진짜 프로들은 Agentic Engineering을 해."Vibe Coding이 뭐가 문제였나Vibe Coding 방식:1. "로그인 기능 만들어줘"2. AI가 코드 생성3. 돌아가면 OK, 에러 나면 에러 붙여넣기4. 반복5. 프로덕션 배포문제:- 코드 이해 없이 배포- 보안 취약점 모름- 아키텍처 일관성 없음- 나.. 더보기

이전 1 ··· 35 36 37 38 39 40 41 ··· 46 다음

티스토리툴바