본문 바로가기

Gemini

Gemini 3.5 Flash 출시 9일 — 실제 사용자들은 뭐라고 했나

반응형

벤치마크는 완벽했습니다. 현실은 달랐습니다. 출시 9일 동안 무슨 일이 있었는지 실제 반응만 모았습니다.


핵심 요약 → 2026년 5월 19일 GA 출시, 출시 직후 Antigravity 유료 사용자들의 쿼터가 1시간 내 소진 → Reddit 실측: 동일 벤치마크 실행 비용 $278(3 Flash) → $1,552(3.5 Flash) — 5.6배 → 원인: thinking 기본값 high로 출시 + 에이전트 루프가 생각보다 훨씬 많은 토큰 소비 → Google 대응: 쿼터 9배 증가 → default thinking high → medium 변경 → Flash Low 신규 출시 → 무료 티어 사용자: "즉시 갈아타라" 압도적 긍정 → API 개발자: "thinking_level 기본값 변경 + 브레이킹 체인지 3개" 놓친 팀들 피해 → 코딩·에이전트 성능 자체는 실제로 좋다는 평가 지배적 → Arena.ai 텍스트 리더보드 9위 — "기대보다 낮다"는 반응도


Day 1 (5월 19일) — "Flash가 Pro를 이겼다"

I/O 발표 당일 첫 반응은 호의적이었습니다.

Arena.ai 기준 출시 직후 텍스트 리더보드 9위 달성, MCP Atlas 83.6%·Terminal-Bench 2.1 76.2%로 Gemini 3.1 Pro를 에이전트 벤치마크에서 추월.

비주얼·기능 충실도 80% 달성 — 실제 테스트에서 경량 모델이 항상 열등하다는 고정관념을 깼다는 평가.

동시에 I/O 현장에서 찬물도 끼얹혔습니다.

Sundar Pichai가 Gemini 3.5 Pro가 아직 준비되지 않았다고 발표했을 때 청중 실망이 역력했고, 버전 번호도 4가 아닌 3.5 — "진짜 세대 도약은 Gemini 4에서"라는 해석이 지배적으로 퍼졌습니다.


Day 2~3 — Antigravity 쿼터 폭발 사태

출시 이틀 만에 가장 큰 논란이 터졌습니다.

# 무슨 일이 벌어졌나

Antigravity 유료 사용자들의 주간 쿼터가 1시간도 안 돼 소진
→ "코드 몇 줄 고쳤는데 이미 한도 초과"
→ Antigravity 포럼, Reddit, X에 항의 글 폭주

Sundar Pichai까지 나서서 공개 사과:
"Gemini 사용 한도 개선을 약속한다"
(CEO가 직접 공개 사과한 건 이례적)

Reddit 유저 u/tadanada가 벤치마크 비용을 직접 측정해 공개했는데 Gemini 3.5 Flash $1,552 vs 이전 3 Flash $278으로 5.5배 차이였고, 이게 유료 플랜이 빠르게 소진되는 이유를 정확히 설명했습니다.

왜 이렇게 됐냐면:

# 문제의 구조

# 3 Flash Preview (이전)
thinking_level = "high"  # 기본값이 high였음
# 에이전트 루프 호출 시 → 적당히 생각하고 답함

# 3.5 Flash 출시 당시 (문제 기간)
thinking_level = "high"  # 여전히 기본값 high
# 3.5 Flash의 high = 3 Flash의 high보다 훨씬 더 많이 생각함
# 에이전트 루프 × 추론 토큰 폭발 = 쿼터 5.5배 소진

# 추가 악화 요인:
# "Thought Preservation" 기본 활성화
# → 멀티턴 대화에서 이전 추론을 다음 턴에도 포함
# → 멀티턴 세션일수록 비용 복리로 증가

# 결과: 같은 작업인데 비용이 5~10배 다르게 나옴

Day 4~7 — Google의 연쇄 대응

May 21일 Antigravity 핵심 팀원 Varun Mohan이 공개적으로 실수를 인정하고 유료 플랜 쿼터를 3배 늘리고 전체 리셋. 며칠 후 추가 3배 증가 — 누적 9배 증가 — 하면서 기본 thinking level도 high에서 medium으로 변경.

그럼에도 일부 개발자들은 쿼터 리셋 후 30분 만에 다시 소진됐다고 보고했습니다.

그래서 나온 게 Gemini 3.5 Flash Low입니다.

# 5월 25일 Flash Low 출시 후 thinking level 체계 정리

Gemini 3.5 Flash (Low)    → 간단한 코딩 작업용
  - Medium 대비 토큰 45% 감소
  - 그럼에도 구 3 Flash High보다 SWE 성능 우수

Gemini 3.5 Flash (Medium) → 기본값 (구 기본값 Flash)
  - 3 Flash High와 동등한 성능, 더 낮은 비용·레이턴시

Gemini 3.5 Flash (High)   → 복잡한 추론·장시간 에이전트
  - 가장 높은 성능, 가장 높은 비용

→ 쿼터 전체 또 한 번 리셋 (세 번째)

초기 소셜 미디어 반응은 엇갈렸습니다. "최적화가 숨통을 틔워줬다"는 평가와 "추론 수준을 낮추는 건 에이전트의 목적에 어긋난다"는 반론이 동시에 나왔습니다.


개발자들이 발견한 브레이킹 체인지 3가지

아무도 헤드라인으로 다루지 않았지만 실제로 가장 많은 팀이 피해를 입은 것들입니다.

import google.generativeai as genai

# ─── 브레이킹 체인지 1: thinking_level 파라미터 변경 ───

# ❌ 3 Flash Preview 코드 (그대로 쓰면 조용히 성능 저하)
model = genai.GenerativeModel("gemini-3.5-flash")
response = model.generate_content("복잡한 에이전트 태스크")
# → default가 high에서 medium으로 조용히 바뀜
# → 에러 없음, 그냥 덜 생각하는 모델로 돌아감

# ✅ 올바른 마이그레이션
response = model.generate_content(
    "복잡한 에이전트 태스크",
    generation_config={
        "thinking_config": {
            "thinking_level": "high"  # 명시적으로 지정 필수
            # 이전: thinking_budget (정수) → 현재: thinking_level (enum)
            # "minimal" | "low" | "medium" | "high"
        }
    }
)

# ─── 브레이킹 체인지 2: Computer Use 마이그레이션 불가 ───

# ❌ gemini-3.5-flash로 Computer Use 마이그레이션 시
model_cu = genai.GenerativeModel("gemini-3.5-flash")
# → API 에러 없음. 그냥 브라우저 액션을 안 실행함
# → 조용히 실패 → 디버깅 매우 어려움

# ✅ Computer Use는 여전히 이전 모델 유지
model_cu = genai.GenerativeModel("gemini-3-flash-preview")
# → 공식 종료 일정 미발표 (2026.05.24 기준)
# → 3.5 Flash에서 Computer Use 지원 시까지 유지

# ─── 브레이킹 체인지 3: Thought Preservation 기본 활성화 ───

# 멀티턴 대화에서 이전 추론 컨텍스트 자동 포함
# → 대화가 길어질수록 입력 토큰 복리 증가
# → 예상보다 훨씬 많은 비용 발생

# 비용 폭탄 방지: 긴 에이전트 세션에서 명시적 컨텍스트 관리 필수

칭찬과 비판 — 실제 목소리

# 긍정 반응 (실제 사용 후기 요약)

✅ "무료 티어 사용자라면 3 Flash에서 즉시 갈아타라"
   — 성능 향상이 공짜로 주어짐

✅ "에이전트 루프에서 289 tokens/sec이 실제로 체감됨"
   — 인터랙티브 앱 UX 차이가 명확

✅ "Rust 버그 14개 수정 테스트 — 코드 리뷰는 진짜 좋다"
   — 구조화된 코딩 태스크 성능 인정

✅ "MCP 멀티툴 체인에서 3.1 Pro보다 빠르고 정확"
   — 에이전트 전용 파이프라인에서 실측 우위 확인

# 부정/주의 반응

❌ "같은 작업인데 지난주보다 청구서가 5배"
   — 비용 계산 없이 마이그레이션한 팀들의 충격

❌ "Computer Use 마이그레이션했더니 조용히 브라우저 액션 안 함"
   — 에러도 없이 실패하는 가장 나쁜 패턴

❌ "128k 구간에서 오히려 3.1 Pro보다 성능 떨어짐"
   — 장문 컨텍스트 RAG 파이프라인에서 예상 밖 퇴보

❌ "자기 가격을 잘못 말하고 정정해줬더니 100% 옳습니다!"
   — 지식 기반 태스크 hallucination 우려

❌ "Arena.ai 9위 — 3.5 버전치고 기대보다 낮다"
   — 순수 추론·지식 리더보드 기준 혼합 성능

실측 비용 비교 — 선택별 실제 수치

# 워크로드별 모델 선택 가이드 (2026.05.28 기준)

COST_COMPARISON = {
    "Gemini 2.0 Flash": {
        "input": 0.10, "output": 0.40,   # per 1M tokens
        "상태": "6월 1일 종료 — 마이그레이션 필수"
    },
    "Gemini 3.1 Flash-Lite": {
        "input": 0.25, "output": 1.50,
        "상태": "유지 중 — 비용 최우선 대안",
        "선택 기준": "품질 타협 가능한 대량 배치"
    },
    "Gemini 3.5 Flash Low": {
        "input": 1.50, "output": 9.00,   # 토큰 45% 절감
        "상태": "신규 — 단순 코딩 태스크 최적화",
        "선택 기준": "Antigravity 단순 작업, 쿼터 절약"
    },
    "Gemini 3.5 Flash Medium": {  # 현재 기본값
        "input": 1.50, "output": 9.00,
        "상태": "GA — 대부분의 에이전트 워크로드",
        "선택 기준": "에이전트 루프, MCP 멀티툴, 코딩"
    },
    "Gemini 3.5 Flash High": {
        "input": 1.50, "output": 9.00,   # 토큰 소비 가장 많음
        "상태": "GA — 복잡한 추론 태스크",
        "선택 기준": "장시간 에이전트, 복잡한 분석"
    }
}

# ⚠ 입출력 단가는 같아도 토큰 소비량이 다름
# Artificial Analysis 실측:
# 동일 벤치마크 기준
#   3.5 Flash High: $1,552 실행 비용
#   3 Flash:         $278  실행 비용
#   → 5.6배 차이는 단가가 아닌 토큰 소비량에서 발생

지금 이 모델 써도 되는가 — 유형별 판단

# 바로 전환 권장

✅ 무료 Gemini 앱 사용자
   → 이미 기본값으로 쓰고 있음, 성능 향상 체감

✅ 에이전트 코딩 파이프라인 (MCP 멀티툴)
   → MCP Atlas 83.6% — 실질 성능 우위 확인됨

✅ 빠른 응답이 UX에 영향을 주는 인터랙티브 앱
   → 289 tokens/sec, 경쟁 대비 4배

✅ Gemini 3.1 Pro API 사용자
   → 에이전트·코딩 벤치마크에서 우위 + 25% 저렴 + 4배 빠름

# 주의하며 전환

⚠ thinking_level 의존 기존 파이프라인
   → 명시적으로 thinking_level: "high" 설정 후 전환
   → 토큰 소비량 사전 측정 필수

⚠ 비용 민감 대량 워크로드
   → Flash Low 또는 Flash-Lite와 태스크별 라우팅 설계
   → "입력 $1.50" 단가만 보지 말고 실제 루프당 토큰 측정

# 아직 전환 보류

❌ Computer Use 파이프라인
   → gemini-3-flash-preview 유지 (종료 일정 미발표)

❌ 128k~1M 구간 장문 컨텍스트 RAG
   → 3.5 Flash MRCR v2 128k: 77.3% (3.1 Pro 84.9%보다 낮음)
   → 3.5 Pro 출시(6월 예정) 후 재검토 권장

❌ 순수 추론·지식 정확도 최우선
   → Humanity's Last Exam (40.2% vs 3.1 Pro 44.4%)
   → ARC-AGI-2 (72.1% vs 3.1 Pro 77.1%)

결론

Gemini 3.5 Flash가 진짜로 좋은 것

  • 에이전트·코딩: 실제로 3.1 Pro를 이겼고 사용자들도 체감
  • 속도: 289 tokens/sec는 인터랙티브 앱에서 확실히 차이가 남
  • 무료 사용자: 비용 없이 성능 향상 — 전환 이유 충분

Google이 제대로 못 한 것

  • 출시 시 thinking 기본값을 high로 설정 → 비용 폭탄 예측 가능했던 실수
  • 브레이킹 체인지 3개를 메인스트림 발표에서 누락 → 많은 팀 피해
  • 9배 쿼터 증가 → Flash Low 출시 → 쿼터 재리셋의 사후 패치 행진

지금도 조심해야 할 것

  • Simon Willison의 요약이 정확합니다: "세 주요 AI 랩이 모두 API 고객들의 가격 저항선을 탐색하고 있다." 단가만 보면 안 되고 실제 토큰 소비량을 측정해야 합니다
  • Computer Use는 아직 이전 모델 유지
  • 6월 Gemini 3.5 Pro 출시 후 포지셔닝 재편 가능 — 지금 대규모 인프라 전환은 성급

관련 글

 

반응형