반응형

2026/04/15 15

LLM 모델 라우팅 완전 가이드 — 분류기, 캐스케이딩, 시맨틱 캐시 실전

LLM을 프로덕션에 올리면 첫 달 청구서가 이렇게 나와요.예상: $300/월실제: $2,400/월원인 분석해보면 이래요.고객: "배송 얼마나 걸려요?"→ Claude Opus 4.6 응답 ($0.015/1K토큰)고객: "안녕하세요"→ Claude Opus 4.6 응답 ($0.015/1K토큰)고객: "취소 어떻게 해요?"→ Claude Opus 4.6 응답 ($0.015/1K토큰)모든 요청에 제일 비싼 모델을 쓰고 있어요.모델별 비용 현실2026년 4월 기준 (Anthropic):Claude Haiku 4.5:입력 $1/M토큰 | 출력 $5/M토큰→ 빠름, 저렴, 단순 작업에 충분Claude Sonnet 4.6:입력 $3/M토큰 | 출력 $15/M토큰→ 중간, 대부분 작업에 적합Claude Opus 4.6..

AI Agent 2026.04.15

AI 에이전트 옵저버빌리티 완전 가이드 — 에이전트가 뭘 하는지 추적하는 법

AI 에이전트를 프로덕션에 배포하면 이런 일이 생겨요.새벽 3시 알람:"월간 LLM 비용 $2,000 초과"원인 파악 시도:- 로그 확인 → "에러 없음"- API 응답 확인 → "200 OK"- 에이전트 출력 확인 → "정상처럼 보임"실제 원인:에이전트가 무한 루프에 빠져서매 반복마다 더 긴 컨텍스트로 LLM 호출→ 2시간 동안 아무도 몰랐음기존 모니터링으로는 에이전트를 감시할 수 없어요. 에이전트 전용 옵저버빌리티가 필요해요.왜 기존 모니터링으로 부족한가기존 APM(Application Performance Monitoring)이 답하는 질문:✅ 서버 살아있나?✅ 응답 시간 얼마나 걸렸나?✅ 에러 발생했나?에이전트에서 필요한 질문:❌ 에이전트가 왜 이 결정을 내렸나?❌ 어느 툴 호출이 잘못됐나?❌ 어..

AI Agent 2026.04.15

Claude Code Agent Teams 실전 가이드 — 병렬 에이전트 설정부터 실전 시나리오까지

2026년 2월, Claude Opus 4.6과 함께 Agent Teams가 출시됐어요.기존:Claude Code 1개 → 순서대로 처리API 레이어 → DB 레이어 → 테스트 → 문서화(순차 실행)Agent Teams:Claude Code 여러 개 → 동시에 처리Agent 1: API 레이어Agent 2: DB 레이어 → 동시 실행Agent 3: 테스트 작성Agent 4: 코드 리뷰단순히 여러 창을 띄우는 게 아니에요. 에이전트들이 서로 소통하고 조율해요.Agent Teams vs Subagents — 뭐가 다른가헷갈리기 쉬운 개념이에요.Subagents:→ 메인 세션이 작업 위임→ 서브에이전트는 결과만 보고→ 서브에이전트끼리 직접 소통 불가→ 단순 병렬 처리Agent Teams:→ 에이전트..

AI 개발 2026.04.15

Claude Code로 레거시 코드 리팩토링하기 — 실전 워크플로우

레거시 코드베이스가 있어요.- 500줄짜리 함수- 테스트 없음- 작성자 퇴사- 아무도 건드리기 싫어함Claude Code의 100만 토큰 컨텍스트 윈도우로 이 문제를 어떻게 해결하는지 정리합니다.왜 레거시 리팩토링이 어려운가문제 1: 코드를 이해하는 데 시간이 너무 걸림 → 500줄 함수 읽고 로직 파악하는 데 하루문제 2: 테스트가 없어서 건드리기 무서움 → 뭘 고쳐도 다른 게 터질 것 같음문제 3: 한 번에 다 고치려다 폭발 → 완전 재작성 시도 → 3개월 후 포기Claude Code로 이 세 가지를 순서대로 해결해요.1단계 — 코드 이해 (탐색)리팩토링 전에 Claude Code가 코드를 먼저 분석하게 해요.> 이 레포지토리의 전체 구조를 분석해줘. 핵심 모듈, 의존성, 코드 스멜을 파..

AI 개발 2026.04.15

CLAUDE.md 잘 쓰는 법 — 세션마다 시니어 개발자를 고용하는 효과

Claude Code를 처음 쓰면 이런 일이 반복돼요.세션 1: "우리 프로젝트는 TypeScript 씁니다"세션 2: 또 "TypeScript 써요"세션 3: 또또 "TypeScript요..."Claude Code는 매 세션마다 기억을 초기화하고 시작해요.아무것도 모르는 신입이 매일 아침 처음 출근하는 것과 같아요.CLAUDE.md는 이걸 해결해요. 매 세션 시작 때 자동으로 읽히는 파일이에요.CLAUDE.md가 뭔가.├── src/├── package.json└── CLAUDE.md ← 여기프로젝트 루트에 놓으면 Claude Code가 세션 시작마다 자동으로 읽어요.신입 개발자에게 주는 온보딩 문서라고 생각하면 돼요. 단, 이 신입은 매일 아침 기억을 지우고 출근해요. 그래서 CLAUDE.md에..

AI 개발 2026.04.15

Claude Code 한도 자꾸 걸리는 이유와 요금제 선택 가이드 2026

Claude Code를 처음 써보려는 개발자들이 공통으로 겪는 일이 있어요."오 Claude Code $20/월이네. 써볼까?"→ 가입→ 하루 이틀 쓰다가→ 한도 초과→ "????"2026년 4월 기준으로 Claude Code 요금 구조를 완전히 정리합니다.요금제 구조Pro: $20/월Max 5x: $100/월 ← 실제 전문 개발자 진입점Max 20x: $200/월Team Premium: $100/시트/월 (최소 5시트)Enterprise: 협의주의: Free 플랜은 Claude Code 미포함$20 Pro 플랜의 현실공식 홍보는 $20/월이에요. 근데 커뮤니티 반응이 다릅니다."Pro 플랜은 하루 2~3시간 쓰면 한도 초과""큰 코드베이스에서 plan mode 3번이면 5시간 한..

AI 개발 2026.04.15

AI가 짠 코드 43%가 프로덕션에서 터진다 — Lightrun 200개 기업 조사

2026년 4월 14일, AI 코딩 붐에 찬물을 끼얹는 보고서가 나왔습니다.Lightrun이 미국, 영국, EU 대기업의 SRE와 DevOps 리더 200명을 대상으로 조사한 결과예요.핵심 수치:AI 생성 코드 변경의 43% →QA와 스테이징 통과 후에도 프로덕션에서 디버깅 필요"AI를 믿고 배포할 수 있다"고 답한 엔지니어링 리더: 0%숫자로 보는 현실88%:AI 생성 수정사항이 실제로 작동하는지 확인하는 데수동 재배포 2~3회 필요43%:QA/스테이징 통과했는데 프로덕션에서 디버깅 필요38%:개발자가 매주 디버깅, 검증, 트러블슈팅에 쓰는 시간(주 2일 낭비)97%:"AI SRE가 프로덕션에서 실제 무슨 일이 일어나는지제대로 보지 못한다"고 답한 엔지니어링 리더0%:"AI 생성 코드가 배포 후 올바르..

AI 개발 2026.04.15

SGLang B300 GPU (SM103)에서 Qwen3.5 서빙 — Attention Backend

B300 GPU에서 SGLang으로 Qwen3.5를 서빙하면서 어텐션 백엔드 설정을 이것저것 해봤습니다.환경GPU: NVIDIA B300 (SM103, Blackwell 계열)모델: Qwen3.5-4B (head_dim=256)프레임워크: SGLang (CUDA 12.9+)1차 시도 — FA4 + trtllm_mha--prefill-attention-backend fa4 \--attention-backend trtllm_mha에러:AssertionError: (head_dim, head_dim_v)=(256, 256) is not supported on SM100/SM110.head_dim must be between 8 and 128FA4는 head_dim 128까지만 지원해요. Qwen3.5는 256..

LLM 2026.04.15

AI가 코드 작성 속도 올려도 배포는 안 빨라진다

팀에 Claude Code, Copilot 도입하면 이런 일이 생겨요.1~4주차: 개발자들 엄청 빨라진 것 같음. PR 2배로 올라옴2개월: PR 리뷰 큐가 쌓이기 시작. 시니어들 하루종일 리뷰만 함3개월: 버그 리포트 증가. CI는 통과했는데 프로덕션에서 터짐4개월: 리드 타임이 AI 도입 전보다 길어짐Faros AI가 10,000명 이상 개발자, 1,255팀을 분석한 결과예요.숫자가 뭐라고 하나AI 도입 후 팀 지표:PR 머지 수: +98% (2배 증가) ✅ 좋아 보임PR 크기: +154% (1.5배 더 큼) ⚠️PR 리뷰 시간: +91% (거의 2배) 🚨버그 발생률: +9% per developer 🚨DORA 메트릭: 변화 없음 🤔회사..

AI 개발 2026.04.15

SGLang Attention Backend 완전 비교 — Triton, FlashInfer, FA3, TRTLLM

SGLang으로 서버 띄울 때 이 파라미터를 보게 돼요.python -m sglang.launch_server \ --model-path Qwen/Qwen3.5-9B-Instruct \ --attention-backend ??? # 뭘 써야 하지?옵션이 여러 개예요.tritonflashinferfa3 (flashattention3)trtllm_mhatrtllm_mlafa4 (최신)각각이 뭔지, 언제 써야 하는지 정리할게요.백엔드가 뭔가Attention 계산을 어떤 커널(저수준 GPU 코드)로 처리할지 결정하는 거예요.SGLang 서버 ↓Attention Backend 선택 ↓┌──────────────────────────────────────┐│ Triton │ FlashInfer..

LLM 2026.04.15
반응형