본문 바로가기

반응형

LLM

(51)
Opus 4.7 에이전트 비용 제어 실전 — effort + Task Budget 완전 가이드 에이전트를 Opus 4.7로 돌리면 비용이 예측 불가예요.왜 예측이 안 되냐:→ 에이전트 루프: 생각 + 툴 호출 + 툴 결과 + 출력이 쌓임→ xhigh 기본값: 더 많이 생각함→ 새 토크나이저: 같은 텍스트도 최대 35% 토큰 증가→ 언제 끝날지 모름 = 비용도 모름Opus 4.7은 이걸 잡는 두 가지 도구를 줬어요.1. effort 파라미터: 추론 깊이 조절2. Task Budget: 에이전트 루프 전체 토큰 예산 설정하나씩 실제로 써볼게요.effort 파라미터5단계 레벨 이해low → 빠르고 싸다. 복잡한 추론 없음medium → 균형high → 기본값 (API 기본값)xhigh → high와 max 사이 (Claude Code 기본값)max → 최대 품질, 최고 비용비용 대비 성..
Claude Opus 4.7 토크나이저 함정 — 같은 가격, 더 많은 비용 Anthropic이 4월 16일 Opus 4.7을 출시하면서 이렇게 말했어요."가격 변동 없음. Opus 4.6과 동일한 $5/$25 per MTok"맞아요. 토큰당 가격은 그대로예요.근데 같은 텍스트가 더 많은 토큰으로 쪼개집니다.Anthropic 공식 문서:"새 토크나이저는 최대 35% 더 많은 토큰을 사용할 수 있음"실제 측정값 (claudecodecamp.com):기술 문서: 1.47x (47% 증가)CLAUDE.md: 1.45x (45% 증가)일반 코드: 1.20~1.35x한국어/CJK: 1.01x (거의 동일)Anthropic이 "최대 35%"라고 했지만 실제 영어/코드 기반 콘텐츠는 35%를 넘는 경우가 많아요.실제 비용이 얼마나 늘어나나케이스 1 — 일반 API 사용자하루 A..
Claude Opus 4.7 출시 — SWE-bench Pro 1위, GPT-5.4 완전히 제쳤다 2026년 4월 17일 오늘, Anthropic이 Claude Opus 4.7을 공식 출시했어요.예고된 대로 나왔고, 개발자들이 기다리던 업그레이드가 맞아요.한 줄 요약:코딩 에이전트 벤치마크에서 GPT-5.4와 Gemini 3.1 Pro를 제쳤어요.가격은 Opus 4.6과 동일. ($5/$25 per M tokens)벤치마크 비교SWE-bench Pro (실제 GitHub 이슈 해결):Opus 4.7: 64.3% ← 1위GPT-5.4: 57.7%Gemini 3.1: 54.2%Opus 4.6: 53.4%→ Opus 4.6 대비 +11%p, GPT-5.4보다 +6.6%pSWE-bench Verified:Opus 4.7: 87.6%Gemini 3.1: 80.6..
GLM-5.1 vs Claude Opus 4.6 vs GPT-5.4 2026년 4월 7일, Z.ai(구 Zhipu AI)가 GLM-5.1을 공개했어요.공개 즉시 SWE-bench Pro 1위를 차지했어요.SWE-bench Pro (실제 GitHub 이슈 해결):GLM-5.1: 58.4% ← 1위GPT-5.4: 57.7%Claude Opus 4.6: 57.3%Gemini 3.1 Pro: 55.1%오픈소스 모델이 GPT-5.4와 Opus 4.6을 모두 제쳤어요.근데 벤치마크 숫자보다 더 주목할 게 있어요.Z.ai가 뭔가원래 이름: Zhipu AI (智谱 AI)배경: 칭화대학교 스핀오프국제 브랜드: Z.ai2026년 1월 8일: 홍콩 증시 IPO→ 약 HKD 43.5억 ($5.58억) 조달→ 시가총액: $528억→ 세계 최초 상장 파운데이션 모델 기업IP..
Anthropic Claude Opus 4.7 + AI 디자인 툴 이번주 출시 예정 — Figma, Wix 주가 폭락한 이유 2026년 4월 14일, The Information이 단독 보도를 냈어요."Anthropic이 이번 주 두 가지를 출시할 예정:1. Claude Opus 4.72. 웹사이트/프레젠테이션 생성 AI 디자인 툴"보도 직후 시장이 즉각 반응했어요.Figma: -6.0%Wix: -4.8%Adobe: -2.7%GoDaddy: -4.4%단 한 건의 미확인 단독 보도에 이 정도 반응.→ 시장은 이미 이 움직임을 예상하고 있었다는 뜻Claude Opus 4.7 — 뭐가 달라지나Opus 4.6이 2026년 2월 출시됐어요. 2개월 만에 4.7이에요.Opus 4.6 주요 스펙:- 1M 토큰 컨텍스트 윈도우 (베타)- SWE-bench Verified: 80%+- Terminal-Bench 2.0: 65.4..
SGLang B300 GPU (SM103)에서 Qwen3.5 서빙 — Attention Backend B300 GPU에서 SGLang으로 Qwen3.5를 서빙하면서 어텐션 백엔드 설정을 이것저것 해봤습니다.환경GPU: NVIDIA B300 (SM103, Blackwell 계열)모델: Qwen3.5-4B (head_dim=256)프레임워크: SGLang (CUDA 12.9+)1차 시도 — FA4 + trtllm_mha--prefill-attention-backend fa4 \--attention-backend trtllm_mha에러:AssertionError: (head_dim, head_dim_v)=(256, 256) is not supported on SM100/SM110.head_dim must be between 8 and 128FA4는 head_dim 128까지만 지원해요. Qwen3.5는 256..
SGLang Attention Backend 완전 비교 — Triton, FlashInfer, FA3, TRTLLM SGLang으로 서버 띄울 때 이 파라미터를 보게 돼요.python -m sglang.launch_server \ --model-path Qwen/Qwen3.5-9B-Instruct \ --attention-backend ??? # 뭘 써야 하지?옵션이 여러 개예요.tritonflashinferfa3 (flashattention3)trtllm_mhatrtllm_mlafa4 (최신)각각이 뭔지, 언제 써야 하는지 정리할게요.백엔드가 뭔가Attention 계산을 어떤 커널(저수준 GPU 코드)로 처리할지 결정하는 거예요.SGLang 서버 ↓Attention Backend 선택 ↓┌──────────────────────────────────────┐│ Triton │ FlashInfer..
FlashAttention 완전 정리 — LLM이 긴 문서를 처리할 수 있는 진짜 이유 LLM이 긴 문서를 처리할 때 왜 느려질까요?GPT-3 컨텍스트: 2,048 토큰GPT-4 컨텍스트: 128,000 토큰Llama 3: 1,000,000 토큰2년 만에 500배 늘어났어요.이게 가능해진 핵심 기술이 FlashAttention이에요.Attention이 뭔가LLM은 텍스트를 읽을 때 모든 토큰이 다른 모든 토큰과 얼마나 관련있는지 계산해요.입력: "나는 사과를 먹었다"각 토큰이 다른 토큰과의 관계 점수 계산:"나는" ↔ "사과를": 0.3"나는" ↔ "먹었다": 0.8"사과를" ↔ "먹었다": 0.7...수식으로는 이래요.Attention(Q, K, V) = softmax(QK^T / √d_k) × VQ(Query): "지금 처리 중인 토큰"K(Key): "비교할 모든 토큰"V(Val..

반응형