반응형

2026/04/20 4

LLM 사설 평가셋 50개 만들고 모델 비교하기 — 벤치마크를 믿지 마세요

48시간마다 새 모델이 나와요. 모두 "SWE-bench 1위", "GPQA 최고점"을 주장해요.근데 그게 내 서비스에서도 최고일까요.공개 벤치마크의 현실:MMLU: 상위 모델 88% 이상 → 이미 포화SWE-bench: 에이전트 코딩 특화 → 일반 서비스와 무관GPQA: 박사급 과학 문제 → 실제 업무와 거리 멀어데이터 오염 문제:- 훈련 데이터에 이미 벤치마크 문제가 포함됨- GSM8K 점수 vs GSM1K(새 문제) 점수 차이: 최대 16%p- 모델이 실제로 못 풀어도 고점 가능진짜 답은 내 서비스에 맞는 사설 평가셋을 직접 만드는 것이에요.50개면 충분히 시작할 수 있어요. 오늘 만들어봅시다.왜 50개인가너무 적으면 (10개 미만):→ 통계적으로 의미 없음→ 우연에 의한 결과 가능너무 많으면 (5..

LLM 2026.04.20

Opus 4.7 에이전트 비용 제어 실전 — effort + Task Budget 완전 가이드

에이전트를 Opus 4.7로 돌리면 비용이 예측 불가예요.왜 예측이 안 되냐:→ 에이전트 루프: 생각 + 툴 호출 + 툴 결과 + 출력이 쌓임→ xhigh 기본값: 더 많이 생각함→ 새 토크나이저: 같은 텍스트도 최대 35% 토큰 증가→ 언제 끝날지 모름 = 비용도 모름Opus 4.7은 이걸 잡는 두 가지 도구를 줬어요.1. effort 파라미터: 추론 깊이 조절2. Task Budget: 에이전트 루프 전체 토큰 예산 설정하나씩 실제로 써볼게요.effort 파라미터5단계 레벨 이해low → 빠르고 싸다. 복잡한 추론 없음medium → 균형high → 기본값 (API 기본값)xhigh → high와 max 사이 (Claude Code 기본값)max → 최대 품질, 최고 비용비용 대비 성..

LLM 2026.04.20

Claude Opus 4.7 토크나이저 함정 — 같은 가격, 더 많은 비용

Anthropic이 4월 16일 Opus 4.7을 출시하면서 이렇게 말했어요."가격 변동 없음. Opus 4.6과 동일한 $5/$25 per MTok"맞아요. 토큰당 가격은 그대로예요.근데 같은 텍스트가 더 많은 토큰으로 쪼개집니다.Anthropic 공식 문서:"새 토크나이저는 최대 35% 더 많은 토큰을 사용할 수 있음"실제 측정값 (claudecodecamp.com):기술 문서: 1.47x (47% 증가)CLAUDE.md: 1.45x (45% 증가)일반 코드: 1.20~1.35x한국어/CJK: 1.01x (거의 동일)Anthropic이 "최대 35%"라고 했지만 실제 영어/코드 기반 콘텐츠는 35%를 넘는 경우가 많아요.실제 비용이 얼마나 늘어나나케이스 1 — 일반 API 사용자하루 A..

LLM 2026.04.20

AI 에이전트 트래픽 7,851% 폭증 — 바뀌어야 하는 서버 설계, 방어 전략

2025년, 조용히 인터넷이 바뀌었어요.HUMAN Security가 1경(10^15) 개 이상의 디지털 상호작용을 분석한 결과:2025년 트래픽 증가율:AI 에이전트 브라우저 트래픽: +7,851%AI 봇 전체: +187%사람: +3.1%자동화 트래픽 성장속도 = 사람의 8배Cloudflare CEO 매튜 프린스가 2026년 3월 SXSW에서 한 말:"2027년이면 봇 트래픽이 사람 트래픽을 추월한다.COVID 때처럼 반짝 스파이크가 아니다.멈출 기미가 없다."2024년 이미 자동화 트래픽이 전체 웹 트래픽의 51%를 넘겼어요. 인터넷 역사상 처음이에요.문제는 대부분의 서버와 API가 여전히 사람 트래픽 기준으로 설계되어 있다는 거..

AI 개발 2026.04.20
반응형