48시간마다 새 모델이 나와요. 모두 "SWE-bench 1위", "GPQA 최고점"을 주장해요.근데 그게 내 서비스에서도 최고일까요.공개 벤치마크의 현실:MMLU: 상위 모델 88% 이상 → 이미 포화SWE-bench: 에이전트 코딩 특화 → 일반 서비스와 무관GPQA: 박사급 과학 문제 → 실제 업무와 거리 멀어데이터 오염 문제:- 훈련 데이터에 이미 벤치마크 문제가 포함됨- GSM8K 점수 vs GSM1K(새 문제) 점수 차이: 최대 16%p- 모델이 실제로 못 풀어도 고점 가능진짜 답은 내 서비스에 맞는 사설 평가셋을 직접 만드는 것이에요.50개면 충분히 시작할 수 있어요. 오늘 만들어봅시다.왜 50개인가너무 적으면 (10개 미만):→ 통계적으로 의미 없음→ 우연에 의한 결과 가능너무 많으면 (5..