벤치마크는 완벽했습니다. 현실은 달랐습니다. 출시 9일 동안 무슨 일이 있었는지 실제 반응만 모았습니다.
핵심 요약 → 2026년 5월 19일 GA 출시, 출시 직후 Antigravity 유료 사용자들의 쿼터가 1시간 내 소진 → Reddit 실측: 동일 벤치마크 실행 비용 $278(3 Flash) → $1,552(3.5 Flash) — 5.6배 → 원인: thinking 기본값 high로 출시 + 에이전트 루프가 생각보다 훨씬 많은 토큰 소비 → Google 대응: 쿼터 9배 증가 → default thinking high → medium 변경 → Flash Low 신규 출시 → 무료 티어 사용자: "즉시 갈아타라" 압도적 긍정 → API 개발자: "thinking_level 기본값 변경 + 브레이킹 체인지 3개" 놓친 팀들 피해 → 코딩·에이전트 성능 자체는 실제로 좋다는 평가 지배적 → Arena.ai 텍스트 리더보드 9위 — "기대보다 낮다"는 반응도
Day 1 (5월 19일) — "Flash가 Pro를 이겼다"
I/O 발표 당일 첫 반응은 호의적이었습니다.
Arena.ai 기준 출시 직후 텍스트 리더보드 9위 달성, MCP Atlas 83.6%·Terminal-Bench 2.1 76.2%로 Gemini 3.1 Pro를 에이전트 벤치마크에서 추월.
비주얼·기능 충실도 80% 달성 — 실제 테스트에서 경량 모델이 항상 열등하다는 고정관념을 깼다는 평가.
동시에 I/O 현장에서 찬물도 끼얹혔습니다.
Sundar Pichai가 Gemini 3.5 Pro가 아직 준비되지 않았다고 발표했을 때 청중 실망이 역력했고, 버전 번호도 4가 아닌 3.5 — "진짜 세대 도약은 Gemini 4에서"라는 해석이 지배적으로 퍼졌습니다.
Day 2~3 — Antigravity 쿼터 폭발 사태
출시 이틀 만에 가장 큰 논란이 터졌습니다.
# 무슨 일이 벌어졌나
Antigravity 유료 사용자들의 주간 쿼터가 1시간도 안 돼 소진
→ "코드 몇 줄 고쳤는데 이미 한도 초과"
→ Antigravity 포럼, Reddit, X에 항의 글 폭주
Sundar Pichai까지 나서서 공개 사과:
"Gemini 사용 한도 개선을 약속한다"
(CEO가 직접 공개 사과한 건 이례적)
Reddit 유저 u/tadanada가 벤치마크 비용을 직접 측정해 공개했는데 Gemini 3.5 Flash $1,552 vs 이전 3 Flash $278으로 5.5배 차이였고, 이게 유료 플랜이 빠르게 소진되는 이유를 정확히 설명했습니다.
왜 이렇게 됐냐면:
# 문제의 구조
# 3 Flash Preview (이전)
thinking_level = "high" # 기본값이 high였음
# 에이전트 루프 호출 시 → 적당히 생각하고 답함
# 3.5 Flash 출시 당시 (문제 기간)
thinking_level = "high" # 여전히 기본값 high
# 3.5 Flash의 high = 3 Flash의 high보다 훨씬 더 많이 생각함
# 에이전트 루프 × 추론 토큰 폭발 = 쿼터 5.5배 소진
# 추가 악화 요인:
# "Thought Preservation" 기본 활성화
# → 멀티턴 대화에서 이전 추론을 다음 턴에도 포함
# → 멀티턴 세션일수록 비용 복리로 증가
# 결과: 같은 작업인데 비용이 5~10배 다르게 나옴
Day 4~7 — Google의 연쇄 대응
May 21일 Antigravity 핵심 팀원 Varun Mohan이 공개적으로 실수를 인정하고 유료 플랜 쿼터를 3배 늘리고 전체 리셋. 며칠 후 추가 3배 증가 — 누적 9배 증가 — 하면서 기본 thinking level도 high에서 medium으로 변경.
그럼에도 일부 개발자들은 쿼터 리셋 후 30분 만에 다시 소진됐다고 보고했습니다.
그래서 나온 게 Gemini 3.5 Flash Low입니다.
# 5월 25일 Flash Low 출시 후 thinking level 체계 정리
Gemini 3.5 Flash (Low) → 간단한 코딩 작업용
- Medium 대비 토큰 45% 감소
- 그럼에도 구 3 Flash High보다 SWE 성능 우수
Gemini 3.5 Flash (Medium) → 기본값 (구 기본값 Flash)
- 3 Flash High와 동등한 성능, 더 낮은 비용·레이턴시
Gemini 3.5 Flash (High) → 복잡한 추론·장시간 에이전트
- 가장 높은 성능, 가장 높은 비용
→ 쿼터 전체 또 한 번 리셋 (세 번째)
초기 소셜 미디어 반응은 엇갈렸습니다. "최적화가 숨통을 틔워줬다"는 평가와 "추론 수준을 낮추는 건 에이전트의 목적에 어긋난다"는 반론이 동시에 나왔습니다.
개발자들이 발견한 브레이킹 체인지 3가지
아무도 헤드라인으로 다루지 않았지만 실제로 가장 많은 팀이 피해를 입은 것들입니다.
import google.generativeai as genai
# ─── 브레이킹 체인지 1: thinking_level 파라미터 변경 ───
# ❌ 3 Flash Preview 코드 (그대로 쓰면 조용히 성능 저하)
model = genai.GenerativeModel("gemini-3.5-flash")
response = model.generate_content("복잡한 에이전트 태스크")
# → default가 high에서 medium으로 조용히 바뀜
# → 에러 없음, 그냥 덜 생각하는 모델로 돌아감
# ✅ 올바른 마이그레이션
response = model.generate_content(
"복잡한 에이전트 태스크",
generation_config={
"thinking_config": {
"thinking_level": "high" # 명시적으로 지정 필수
# 이전: thinking_budget (정수) → 현재: thinking_level (enum)
# "minimal" | "low" | "medium" | "high"
}
}
)
# ─── 브레이킹 체인지 2: Computer Use 마이그레이션 불가 ───
# ❌ gemini-3.5-flash로 Computer Use 마이그레이션 시
model_cu = genai.GenerativeModel("gemini-3.5-flash")
# → API 에러 없음. 그냥 브라우저 액션을 안 실행함
# → 조용히 실패 → 디버깅 매우 어려움
# ✅ Computer Use는 여전히 이전 모델 유지
model_cu = genai.GenerativeModel("gemini-3-flash-preview")
# → 공식 종료 일정 미발표 (2026.05.24 기준)
# → 3.5 Flash에서 Computer Use 지원 시까지 유지
# ─── 브레이킹 체인지 3: Thought Preservation 기본 활성화 ───
# 멀티턴 대화에서 이전 추론 컨텍스트 자동 포함
# → 대화가 길어질수록 입력 토큰 복리 증가
# → 예상보다 훨씬 많은 비용 발생
# 비용 폭탄 방지: 긴 에이전트 세션에서 명시적 컨텍스트 관리 필수
칭찬과 비판 — 실제 목소리
# 긍정 반응 (실제 사용 후기 요약)
✅ "무료 티어 사용자라면 3 Flash에서 즉시 갈아타라"
— 성능 향상이 공짜로 주어짐
✅ "에이전트 루프에서 289 tokens/sec이 실제로 체감됨"
— 인터랙티브 앱 UX 차이가 명확
✅ "Rust 버그 14개 수정 테스트 — 코드 리뷰는 진짜 좋다"
— 구조화된 코딩 태스크 성능 인정
✅ "MCP 멀티툴 체인에서 3.1 Pro보다 빠르고 정확"
— 에이전트 전용 파이프라인에서 실측 우위 확인
# 부정/주의 반응
❌ "같은 작업인데 지난주보다 청구서가 5배"
— 비용 계산 없이 마이그레이션한 팀들의 충격
❌ "Computer Use 마이그레이션했더니 조용히 브라우저 액션 안 함"
— 에러도 없이 실패하는 가장 나쁜 패턴
❌ "128k 구간에서 오히려 3.1 Pro보다 성능 떨어짐"
— 장문 컨텍스트 RAG 파이프라인에서 예상 밖 퇴보
❌ "자기 가격을 잘못 말하고 정정해줬더니 100% 옳습니다!"
— 지식 기반 태스크 hallucination 우려
❌ "Arena.ai 9위 — 3.5 버전치고 기대보다 낮다"
— 순수 추론·지식 리더보드 기준 혼합 성능
실측 비용 비교 — 선택별 실제 수치
# 워크로드별 모델 선택 가이드 (2026.05.28 기준)
COST_COMPARISON = {
"Gemini 2.0 Flash": {
"input": 0.10, "output": 0.40, # per 1M tokens
"상태": "6월 1일 종료 — 마이그레이션 필수"
},
"Gemini 3.1 Flash-Lite": {
"input": 0.25, "output": 1.50,
"상태": "유지 중 — 비용 최우선 대안",
"선택 기준": "품질 타협 가능한 대량 배치"
},
"Gemini 3.5 Flash Low": {
"input": 1.50, "output": 9.00, # 토큰 45% 절감
"상태": "신규 — 단순 코딩 태스크 최적화",
"선택 기준": "Antigravity 단순 작업, 쿼터 절약"
},
"Gemini 3.5 Flash Medium": { # 현재 기본값
"input": 1.50, "output": 9.00,
"상태": "GA — 대부분의 에이전트 워크로드",
"선택 기준": "에이전트 루프, MCP 멀티툴, 코딩"
},
"Gemini 3.5 Flash High": {
"input": 1.50, "output": 9.00, # 토큰 소비 가장 많음
"상태": "GA — 복잡한 추론 태스크",
"선택 기준": "장시간 에이전트, 복잡한 분석"
}
}
# ⚠ 입출력 단가는 같아도 토큰 소비량이 다름
# Artificial Analysis 실측:
# 동일 벤치마크 기준
# 3.5 Flash High: $1,552 실행 비용
# 3 Flash: $278 실행 비용
# → 5.6배 차이는 단가가 아닌 토큰 소비량에서 발생
지금 이 모델 써도 되는가 — 유형별 판단
# 바로 전환 권장
✅ 무료 Gemini 앱 사용자
→ 이미 기본값으로 쓰고 있음, 성능 향상 체감
✅ 에이전트 코딩 파이프라인 (MCP 멀티툴)
→ MCP Atlas 83.6% — 실질 성능 우위 확인됨
✅ 빠른 응답이 UX에 영향을 주는 인터랙티브 앱
→ 289 tokens/sec, 경쟁 대비 4배
✅ Gemini 3.1 Pro API 사용자
→ 에이전트·코딩 벤치마크에서 우위 + 25% 저렴 + 4배 빠름
# 주의하며 전환
⚠ thinking_level 의존 기존 파이프라인
→ 명시적으로 thinking_level: "high" 설정 후 전환
→ 토큰 소비량 사전 측정 필수
⚠ 비용 민감 대량 워크로드
→ Flash Low 또는 Flash-Lite와 태스크별 라우팅 설계
→ "입력 $1.50" 단가만 보지 말고 실제 루프당 토큰 측정
# 아직 전환 보류
❌ Computer Use 파이프라인
→ gemini-3-flash-preview 유지 (종료 일정 미발표)
❌ 128k~1M 구간 장문 컨텍스트 RAG
→ 3.5 Flash MRCR v2 128k: 77.3% (3.1 Pro 84.9%보다 낮음)
→ 3.5 Pro 출시(6월 예정) 후 재검토 권장
❌ 순수 추론·지식 정확도 최우선
→ Humanity's Last Exam (40.2% vs 3.1 Pro 44.4%)
→ ARC-AGI-2 (72.1% vs 3.1 Pro 77.1%)
결론
✅ Gemini 3.5 Flash가 진짜로 좋은 것
- 에이전트·코딩: 실제로 3.1 Pro를 이겼고 사용자들도 체감
- 속도: 289 tokens/sec는 인터랙티브 앱에서 확실히 차이가 남
- 무료 사용자: 비용 없이 성능 향상 — 전환 이유 충분
✅ Google이 제대로 못 한 것
- 출시 시 thinking 기본값을 high로 설정 → 비용 폭탄 예측 가능했던 실수
- 브레이킹 체인지 3개를 메인스트림 발표에서 누락 → 많은 팀 피해
- 9배 쿼터 증가 → Flash Low 출시 → 쿼터 재리셋의 사후 패치 행진
❌ 지금도 조심해야 할 것
- Simon Willison의 요약이 정확합니다: "세 주요 AI 랩이 모두 API 고객들의 가격 저항선을 탐색하고 있다." 단가만 보면 안 되고 실제 토큰 소비량을 측정해야 합니다
- Computer Use는 아직 이전 모델 유지
- 6월 Gemini 3.5 Pro 출시 후 포지셔닝 재편 가능 — 지금 대규모 인프라 전환은 성급
관련 글
'Gemini' 카테고리의 다른 글
| Gemini 3.5 Flash + Interactions API로 MCP 에이전트 만들기 — 완전 실전 가이드 (0) | 2026.05.28 |
|---|---|
| Gemini Interactions API 완전분석 — OpenAI Responses API의 대항마, 서버사이드 히스토리 관리의 실체 (0) | 2026.05.28 |
| Gemini 3.5 Flash 가격 3배 인상의 전략적 의미 — Google이 Flash를 프리미엄으로 올린 이유 (0) | 2026.05.28 |
| 텍스트·이미지·오디오로 영상을 만든다 — Gemini Omni 완전 분석 (0) | 2026.05.27 |
| Flash가 Pro를 이겼다는 게 정말 맞나 — 벤치마크 신뢰성 5가지 논점 (0) | 2026.05.26 |