Flash가 Pro를 이겼다는 게 정말 맞나 — 벤치마크 신뢰성 5가지 논점

"Flash 티어 모델이 Pro 티어를 벤치마크에서 이겼다." Google I/O 2026에서 나온 이 주장이 개발자 커뮤니티를 달궜습니다. Gemini 3.5 Flash가 Terminal-Bench 2.1에서 Gemini 3.1 Pro를 5.9pt 앞섰고, MCP Atlas에서 Claude Opus 4.7마저 4.5pt 차로 넘어섰다는 수치들. 그런데 그 숫자들이 어떻게 측정됐는지 들여다보면 이야기가 달라집니다. SWE-bench Verified는 이미 오염 선언이 났고, 벤치마크 측정에 쓴 thinking level은 프로덕션 기본값이 아닙니다. 벤더가 자체 설계한 하네스로 측정한 수치도 섞여 있습니다. 무엇을 믿고 무엇을 의심해야 하는지, 다섯 가지 논점으로 정리했습니다.

이 포스트 한 줄 요약 → 벤치마크 측정에는 thinking_level=high 사용 — 프로덕션 기본값 medium과 다름 → MCP Atlas·GDPval-AA는 Google 내부 또는 Google 연계 하네스로 측정 → SWE-bench Verified는 오염 공식 확인 — OpenAI 2월 23일 자체 보고 중단 → 오염 전후 비교: Verified 80%대 → SWE-bench Pro 23% 수준 (동일 모델) → Flash는 Flash 티어 — 진짜 Pro 비교 대상은 다음 달 나올 Gemini 3.5 Pro → 일부 수치(ARC-AGI-2 72.1%, SWE-Bench Pro 55.1%)는 5/25 기준 독립 재측정 없음 → 그래도 유효한 부분: MCP Atlas·Tool 호출 실제 성능은 실무 검증 중 → 결론: 벤치마크는 방향만 보고, 자신의 워크로드로 직접 평가하는 것이 유일한 정답

문제 1: 측정에 쓴 thinking level이 프로덕션 기본값이 아니다

Google이 발표한 Gemini 3.5 Flash 벤치마크 수치는 thinking_level=high 설정으로 측정됐습니다. Artificial Analysis 리더보드에 올라간 수치도 동일하게 high 설정 기준입니다. 그런데 API의 기본값은 medium입니다.

# 벤치마크 측정에 사용된 설정
thinking_config=ThinkingConfig(thinking_level="high")   # 벤치마크 기준

# 프로덕션 기본값
thinking_config=ThinkingConfig(thinking_level="medium") # API 기본값

# 빠른 응답 우선 설정
thinking_config=ThinkingConfig(thinking_level="minimal") # 챗봇 등

문제는 thinking_level=high는 처리 시간과 토큰 비용이 크게 늘어난다는 점입니다. 벤치마크에서 "76.2% Terminal-Bench 2.1"을 달성한 모델과 여러분의 프로덕션에서 medium으로 돌아가는 모델은 다른 설정의 같은 모델입니다.

Artificial Analysis가 측정한 추가 수치도 주목할 만합니다. Gemini 3.5 Flash는 벤치마크 스위트 전체를 완료하는 데 약 7,300만 개의 출력 토큰을 생성합니다. 같은 가격대 모델의 평균인 3,600만 개의 2배입니다. 출력 토큰으로 과금되는 환경에서, Flash가 "더 저렴하다"는 주장은 verbosity를 고려해야 정확해집니다.

결론: 벤치마크 수치는 고사양 설정 기준. 프로덕션에서 기본값 대비 실제 성능은 직접 측정 필요.

문제 2: 핵심 벤치마크가 벤더 연계 하네스로 측정됐다

Google이 I/O에서 가장 강조한 세 벤치마크를 구체적으로 살펴봅니다.

MCP Atlas (83.6%) — Google이 설계했거나 Google 에코시스템에 최적화된 MCP 도구 호출 신뢰성 벤치마크입니다. 측정 방법론이 공개됐지만, 설계 자체가 Antigravity 에이전트 하네스를 전제합니다. 다른 에이전트 스택에서 동일한 수치가 나온다는 보장이 없습니다.

Terminal-Bench 2.1 (76.2%) — 공개 벤치마크이지만 Google 내부 하네스로 측정된 수치입니다. 동일 벤치마크에서 GPT-5.5가 78.2%로 앞선다는 점은 Google 발표에서 눈에 띄게 언급되지 않습니다.

GDPval-AA (1656 Elo) — "실세계 에이전트 태스크 성능"을 측정한다고 소개되지만, 측정 방법론 전체가 Google 내부 데이터입니다. 독립 기관의 교차 검증이 없습니다.

비교를 위해 독립 기관 Artificial Analysis의 수치를 보면 양상이 달라집니다.

항목 Google 주장 Artificial Analysis 독립 측정

Intelligence Index 순위	언급 없음	148개 모델 중 8위
환각률	언급 없음	61% (개선됐지만 여전히 존재)
출력 verbosity	언급 없음	평균 2배 (7300만 vs 3600만 토큰)

벤더가 자체 설계한 벤치마크에서 자체 모델이 1위를 차지하는 것은, 구조적으로 이해충돌입니다. CursorBench v3.1(Cursor 자체 설계, Composer 2.5 1위), xAI SWE-bench 하네스(Grok Build 70.8%), Google MCP Atlas(Gemini 3.5 Flash 1위) — 모두 같은 패턴입니다.

문제 3: SWE-bench Verified는 이미 오염됐다

이것이 가장 중요한 논점입니다.

2026년 2월 23일, OpenAI가 공식 발표를 냈습니다. "우리는 SWE-bench Verified 점수 보고를 중단합니다." 이유는 두 가지였습니다.

첫째, 실패한 문제의 59.4%에서 테스트 자체가 잘못 설계돼 있었습니다. 문제 설명에 없는 함수명을 요구하거나, 관련 없는 동작을 검사하는 테스트가 포함돼 있었습니다. 모델이 틀린 게 아니라 테스트가 틀린 경우입니다.

둘째, GPT-5.2·Claude Opus 4.5·Gemini 3 Flash 등 주요 모델이 태스크 ID만으로 정답 패치를 그대로 재현할 수 있었습니다. 학습 데이터에 답이 포함돼 있다는 뜻입니다.

SWE-bench Verified 오염 전후 비교 (동일 모델):

Claude Opus 4.5:
  Verified 점수:  80.9%  (오염)
  Pro 점수:       45.9%  (오염 방어)
  차이:           -35pt

GPT-5.2:
  Verified 점수:  ~80%   (오염)
  Pro 점수:       ~23%   (오염 방어)
  차이:           ~-57pt

Verified에서 80%대를 자랑하던 모델들이 오염 방어 벤치마크인 SWE-bench Pro에서 23~45% 수준으로 내려앉습니다. 그러면 Google이 Flash에 대해 주장하는 "SWE-Bench 81.0%"는? 이 수치는 Verified 기준입니다.

SWE-bench Pro에서 Gemini 3.5 Flash는 55.1%입니다. Claude Opus 4.7은 64.3%로 9.2pt 앞섭니다. Flash가 Pro 티어를 이겼다는 그림은 SWE-bench 기준에서 성립하지 않습니다.

SWE-bench Pro가 더 신뢰받는 이유:

Scale AI가 운영하며, 1,865개 태스크(공개 731개, 상업 276개, 비공개 858개)로 구성됩니다. 파이썬 전용이 아닌 다국어, 실제 상업 레포지토리 포함, git history 접근 차단으로 오염을 구조적으로 방어합니다. 표준화된 스캐폴딩(250턴 제한)으로 모델 간 공정 비교가 가능합니다.

문제 4: 티어 불일치 — 진짜 비교 대상이 아직 안 나왔다

Google I/O에서 Flash가 비교한 대상은 Gemini 3.1 Pro입니다. 같은 세대의 Pro 모델, Gemini 3.5 Pro는 "내달(6월) 출시 예정"이라고만 발표됐습니다.

현재 실제 구도:

Gemini 3.5 Flash  ($1.50/$9.00 per 1M)
       vs
Gemini 3.1 Pro    (이전 세대 Pro)
       ↑
  이게 공정한 비교인가?

공정한 비교는:
Gemini 3.5 Flash  vs  Gemini 3.5 Pro (미출시)
Gemini 3.5 Flash  vs  Claude Sonnet 4.6 (같은 가격대)

Flash가 이전 세대 Pro를 이기는 건 의미 있는 발전입니다. 그러나 이를 "Flash가 Pro급이 됐다"로 해석하는 건 다릅니다. Gemini 3.5 Pro가 나오면 이 비교 구도는 다시 그려질 가능성이 높습니다.

같은 가격대($1.50/1M input)의 Claude Sonnet 4.6과 비교하면 양상이 다릅니다. MCP Atlas에서는 Flash(83.6%)가 Sonnet 4.6(79.1%)을 앞서고, SWE-bench Verified에서는 Sonnet 4.6(79.6%)이 Flash를 앞섭니다. 이쪽이 실질적인 경쟁 구도입니다.

문제 5: 5월 25일 기준 독립 재측정이 없는 수치들

Digital Applied의 5일차 독립 평가 라운드업에 따르면, 발표 후 일주일이 지난 시점에도 독립 재측정이 없는 수치들이 있습니다.

독립 검증 완료 ✅:
- Terminal-Bench 2.1 (76.2%) → 독립 확인
- MCP Atlas (83.6%) → 독립 확인
- MMMU-Pro → 독립 확인, Flash가 리더보드 1위

독립 검증 미완료 ⚠️ (5/25 기준):
- ARC-AGI-2 (72.1%) → 독립 재측정 없음
- SWE-Bench Pro (55.1%) → 독립 재측정 없음
- MRCR v2 128k (77.3%) → 독립 재측정 없음
- Blueprint-Bench 2 (0.336) → 비교 대상 없음 (Flash만 등재)

존재하지 않는 수치 ❌:
- Aider Polyglot 점수 → 발표된 바 없음
  (일부 커버리지에서 언급된 경우 fabrication)

발표 당일 나온 수치를 그대로 인용하는 기사들이 많지만, "발표됐다"와 "독립 검증됐다"는 다릅니다.

그러면 믿을 수 있는 벤치마크는

신뢰도 높은 편

SWE-bench Pro — Scale AI 운영, 표준화 스캐폴딩, 오염 방어 구조. 단 공개 세트(731개)는 시간이 지나면 오염 가능성 존재.

Artificial Analysis Intelligence Index — 다수 벤치마크 가중 평균, 출력 속도·비용 동시 측정, 정기 업데이트. 특정 모델 편향이 없음.

LiveBench — 매달 새 문제를 추가해 오염 구조적 방어. 수학·코딩·추론 포함.

Humanity's Last Exam (HLE) — 도메인 전문가가 설계한 2,500개 문제, 포화 이슈 없음. 단 현재 최고 모델도 35% 수준으로 일반 개발 업무와 거리가 있음.

신뢰도 낮은 편

SWE-bench Verified — OpenAI 자체 오염 확인, 보고 중단. 인용 시 주의.

벤더 자체 벤치마크 (CursorBench, MCP Atlas 등) — 이해충돌 구조. 방향은 참고하되 절대 수치로 받아들이면 안 됨.

MMLU — 90% 이상 포화 상태. 프론티어 모델 간 차별화 불가.

실무에서 벤치마크를 읽는 법

체크리스트: 벤치마크 수치를 보기 전에 물어볼 것들

□ 누가 측정했나? (벤더 자체 vs 독립 기관)
□ 어떤 설정으로 측정했나? (thinking_level, 프롬프트 방식)
□ 이 벤치마크가 내 워크로드와 얼마나 유사한가?
□ 오염 가능성은 없나? (공개 데이터셋 기반인가)
□ 독립 검증이 됐나? (발표됐다 ≠ 검증됐다)
□ 티어 비교가 공정한가? (Flash vs 이전 세대 Pro?)
□ 비용이 반영됐나? (같은 비용 대비 성능인가)

가장 중요한 원칙은 자신의 워크로드로 직접 측정하는 것입니다. 10개 실제 에이전트 태스크에 세 모델을 돌려보고 성공률과 비용을 비교하면, 어떤 리더보드 수치보다 정확한 답이 나옵니다.

✅ 결론

항목 판단

MCP 도구 호출 성능	✅ Flash 실제로 강함 (MCP Atlas 독립 확인)
Terminal 코딩 성능	⚠️ GPT-5.5(78.2%)에 2pt 뒤짐 — Flash가 1위 아님
SWE-bench Verified 주장	❌ 오염된 벤치마크 — 수치 의미 없음
SWE-bench Pro 실제 순위	❌ Opus 4.7(64.3%) > Flash(55.1%)
thinking_level 투명성	❌ high 설정 기준 — 기본값과 다름
티어 비교 공정성	⚠️ 이전 세대 Pro와 비교 — 3.5 Pro 미출시
독립 검증 완료율	⚠️ 주요 수치 중 일부 미완

Gemini 3.5 Flash는 MCP 도구 호출과 에이전트 워크플로에서 실질적으로 강한 모델입니다. 하지만 "Flash가 Pro를 이겼다"는 헤드라인은 측정 조건을 숨긴 요약입니다. thinking_level=high, 벤더 하네스, 오염된 벤치마크, 이전 세대 Pro와의 비교 — 이 조건들을 명시하면 주장의 무게가 달라집니다. 벤치마크는 방향을 보는 도구입니다. 절대 수치로 받아들이면 잘못된 모델 선택으로 이어집니다.

관련 포스트

https://cell-devlog.tistory.com/253

Flash가 Pro를 이겼다 — Gemini 3.5 Flash 완전 분석 (2026)

"Flash 모델이 Pro를 이겼다." 이 문장이 말이 된다고 생각하셨나요? 2026년 5월 19일 Google I/O에서 공개된 Gemini 3.5 Flash는 기존 Flash 티어의 공식을 완전히 깨버렸습니다. 속도와 가격을 유지하면서 전

cell-devlog.tistory.com

https://cell-devlog.tistory.com/220

Gemini 3.5 Flash 완전 가이드 — 오늘 출시된 구글 최신 모델, 실제 벤치마크와 API 실전 사용법

Flash 시리즈가 Pro를 넘었습니다. Google I/O 2026에서 오늘 출시된 Gemini 3.5 Flash는 코딩·에이전트 벤치마크에서 Gemini 3.1 Pro를 앞서면서 속도는 4배 빠릅니다. 가격은 3.1 Pro보다 40% 저렴합니다. 다만

cell-devlog.tistory.com

'Gemini' 카테고리의 다른 글

Gemini 3.5 Flash 가격 3배 인상의 전략적 의미 — Google이 Flash를 프리미엄으로 올린 이유 (0)	2026.05.28
텍스트·이미지·오디오로 영상을 만든다 — Gemini Omni 완전 분석 (0)	2026.05.27
API 호출 한 번으로 격리 Linux 에이전트가 뜬다 — Gemini Managed Agents 실전 코드 (0)	2026.05.26
에이전트 코드 다 짤 필요 없습니다 — Managed Agents vs 직접 오케스트레이션 실전 비교 (0)	2026.05.26
Flash가 Pro를 이겼다 — Gemini 3.5 Flash 완전 분석 (2026) (0)	2026.05.26

CELL AI DEVLOG

Flash가 Pro를 이겼다는 게 정말 맞나 — 벤치마크 신뢰성 5가지 논점

문제 1: 측정에 쓴 thinking level이 프로덕션 기본값이 아니다

문제 2: 핵심 벤치마크가 벤더 연계 하네스로 측정됐다

문제 3: SWE-bench Verified는 이미 오염됐다

문제 4: 티어 불일치 — 진짜 비교 대상이 아직 안 나왔다

문제 5: 5월 25일 기준 독립 재측정이 없는 수치들

그러면 믿을 수 있는 벤치마크는

실무에서 벤치마크를 읽는 법

✅ 결론

'Gemini' 카테고리의 다른 글

티스토리툴바

Flash가 Pro를 이겼다는 게 정말 맞나 — 벤치마크 신뢰성 5가지 논점

문제 1: 측정에 쓴 thinking level이 프로덕션 기본값이 아니다

문제 2: 핵심 벤치마크가 벤더 연계 하네스로 측정됐다

문제 3: SWE-bench Verified는 이미 오염됐다

문제 4: 티어 불일치 — 진짜 비교 대상이 아직 안 나왔다

문제 5: 5월 25일 기준 독립 재측정이 없는 수치들

그러면 믿을 수 있는 벤치마크는

실무에서 벤치마크를 읽는 법

✅ 결론

'Gemini' 카테고리의 다른 글

'Gemini' Related Articles

티스토리툴바