'2026/04/20 글 목록

2026/04/20 4

LLM 사설 평가셋 50개 만들고 모델 비교하기 — 벤치마크를 믿지 마세요

48시간마다 새 모델이 나와요. 모두 "SWE-bench 1위", "GPQA 최고점"을 주장해요.근데 그게 내 서비스에서도 최고일까요.공개 벤치마크의 현실:MMLU: 상위 모델 88% 이상 → 이미 포화SWE-bench: 에이전트 코딩 특화 → 일반 서비스와 무관GPQA: 박사급 과학 문제 → 실제 업무와 거리 멀어데이터 오염 문제:- 훈련 데이터에 이미 벤치마크 문제가 포함됨- GSM8K 점수 vs GSM1K(새 문제) 점수 차이: 최대 16%p- 모델이 실제로 못 풀어도 고점 가능진짜 답은 내 서비스에 맞는 사설 평가셋을 직접 만드는 것이에요.50개면 충분히 시작할 수 있어요. 오늘 만들어봅시다.왜 50개인가너무 적으면 (10개 미만):→ 통계적으로 의미 없음→ 우연에 의한 결과 가능너무 많으면 (5..

LLM 2026.04.20

Opus 4.7 에이전트 비용 제어 실전 — effort + Task Budget 완전 가이드

에이전트를 Opus 4.7로 돌리면 비용이 예측 불가예요.왜 예측이 안 되냐:→ 에이전트 루프: 생각 + 툴 호출 + 툴 결과 + 출력이 쌓임→ xhigh 기본값: 더 많이 생각함→ 새 토크나이저: 같은 텍스트도 최대 35% 토큰 증가→ 언제 끝날지 모름 = 비용도 모름Opus 4.7은 이걸 잡는 두 가지 도구를 줬어요.1. effort 파라미터: 추론 깊이 조절2. Task Budget: 에이전트 루프 전체 토큰 예산 설정하나씩 실제로 써볼게요.effort 파라미터5단계 레벨 이해low → 빠르고 싸다. 복잡한 추론 없음medium → 균형high → 기본값 (API 기본값)xhigh → high와 max 사이 (Claude Code 기본값)max → 최대 품질, 최고 비용비용 대비 성..

LLM 2026.04.20

Claude Opus 4.7 토크나이저 함정 — 같은 가격, 더 많은 비용

Anthropic이 4월 16일 Opus 4.7을 출시하면서 이렇게 말했어요."가격 변동 없음. Opus 4.6과 동일한 $5/$25 per MTok"맞아요. 토큰당 가격은 그대로예요.근데 같은 텍스트가 더 많은 토큰으로 쪼개집니다.Anthropic 공식 문서:"새 토크나이저는 최대 35% 더 많은 토큰을 사용할 수 있음"실제 측정값 (claudecodecamp.com):기술 문서: 1.47x (47% 증가)CLAUDE.md: 1.45x (45% 증가)일반 코드: 1.20~1.35x한국어/CJK: 1.01x (거의 동일)Anthropic이 "최대 35%"라고 했지만 실제 영어/코드 기반 콘텐츠는 35%를 넘는 경우가 많아요.실제 비용이 얼마나 늘어나나케이스 1 — 일반 API 사용자하루 A..

LLM 2026.04.20

AI 에이전트 트래픽 7,851% 폭증 — 바뀌어야 하는 서버 설계, 방어 전략

2025년, 조용히 인터넷이 바뀌었어요.HUMAN Security가 1경(10^15) 개 이상의 디지털 상호작용을 분석한 결과:2025년 트래픽 증가율:AI 에이전트 브라우저 트래픽: +7,851%AI 봇 전체: +187%사람: +3.1%자동화 트래픽 성장속도 = 사람의 8배Cloudflare CEO 매튜 프린스가 2026년 3월 SXSW에서 한 말:"2027년이면 봇 트래픽이 사람 트래픽을 추월한다.COVID 때처럼 반짝 스파이크가 아니다.멈출 기미가 없다."2024년 이미 자동화 트래픽이 전체 웹 트래픽의 51%를 넘겼어요. 인터넷 역사상 처음이에요.문제는 대부분의 서버와 API가 여전히 사람 트래픽 기준으로 설계되어 있다는 거..

AI 개발 2026.04.20

CELL AI DEVLOG

AI 에이전트 만듭니다

AI agent, Rag, LLM, AI 에이전트, openai codex, github copilot, 오픈소스llm, Gemini 3.5 Flash, LLM서빙, SGLANG, Gemini, Claude, 클로드코드, Claude Opus 4.8, 바이브코딩, LLM as a judge, 멀티에이전트, MCP, AWS Kiro, claude code,

Today :
Yesterday :

« 2026/04 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

2026/04/20 4

티스토리툴바