본문 바로가기

Gemini

Flash가 Pro를 이겼다 — Gemini 3.5 Flash 완전 분석 (2026)

반응형

"Flash 모델이 Pro를 이겼다." 이 문장이 말이 된다고 생각하셨나요? 2026년 5월 19일 Google I/O에서 공개된 Gemini 3.5 Flash는 기존 Flash 티어의 공식을 완전히 깨버렸습니다. 속도와 가격을 유지하면서 전 세대 프리미엄 모델인 Gemini 3.1 Pro를 에이전트·코딩 벤치마크 대부분에서 앞질렀습니다. Google은 이를 "프론티어 인텔리전스 with Action"이라 부릅니다. 무엇이 바뀌었고, 실제로 어떻게 써야 하는지 정리했습니다.


이 포스트 한 줄 요약 → 2026년 5월 19일 Google I/O 2026에서 GA 출시 → API 모델 ID: gemini-3.5-flash (preview 접미사 없음) → 가격: 입력 $1.50 / 출력 $9.00 / 캐시 입력 $0.15 (per 1M tokens) → Gemini 3.1 Pro 대비 15개 중 11개 벤치마크에서 우위 → Terminal-Bench 2.1 76.2%, MCP Atlas 83.6%, SWE-Bench 81.0% → 타 프론티어 모델 대비 출력 속도 4배, Antigravity 내부에서 12배 → Dynamic Thinking 기본 활성화, thinking_level 파라미터로 제어 → 컨텍스트 윈도우 1M 토큰, 멀티모달 (텍스트·이미지·오디오·비디오 입력) → 지식 컷오프 2026년 1월 — 현 주요 모델 중 가장 최신 → Gemini 3.5 Pro는 2026년 6월 공개 예정


Flash가 Pro를 넘는다는 게 무슨 의미인가

Google의 모델 네이밍 체계에서 Flash는 "빠르고 저렴한 실용 모델", Pro는 "성능 우선 프리미엄 모델"이었습니다. 그 위계가 3.5 Flash에서 무너졌습니다.

Google DeepMind CTO Koray Kavukcuoglu는 I/O 키노트에서 직접 밝혔습니다. "3.5 Flash는 최신 프론티어 모델인 3.1 Pro를 거의 모든 벤치마크에서 능가한다." 실제로 에이전트 워크플로와 코딩에 특화된 벤치마크들에서 이 주장이 뒷받침됩니다. 왜 가능했을까요? 3.5 Flash는 단순히 텍스트 생성 능력을 높이는 방향이 아니라, **에이전트적 행동(계획, 도구 호출, 다단계 실행)**에 최적화된 방향으로 설계되었습니다.


핵심 스펙

항목 사양

출시일 2026년 5월 19일 (GA)
API 모델 ID gemini-3.5-flash
내부 버전 3.5-flash-05-2026
입력 가격 $1.50 / 1M tokens
출력 가격 $9.00 / 1M tokens
캐시 입력 가격 $0.15 / 1M tokens
비글로벌 리전 $1.65 / $9.90
컨텍스트 윈도우 입력 1,048,576 / 출력 65,536 tokens
입력 모달리티 텍스트, 이미지, 오디오, 비디오
출력 모달리티 텍스트
Dynamic Thinking 기본 활성화
지식 컷오프 2026년 1월

Gemini 3.1 Pro 대비 가격은 약 25% 저렴합니다. Gemini 3.1 Flash-Lite 대비로는 약 6배 비쌉니다. Flash 시리즈 내에서 가장 고가이지만, Pro보다 싸면서 Pro를 이기는 독특한 포지션입니다.


벤치마크 — 어디서 이기고 어디서 지는가

Google이 I/O에서 공개한 주요 벤치마크입니다.

벤치마크 Gemini 3.5 Flash Gemini 3.1 Pro 비고

Terminal-Bench 2.1 76.2% 70.3% 에이전트 코딩
MCP Atlas 83.6% 도구 호출 신뢰성
GDPval-AA 1656 Elo 실세계 에이전트
CharXiv Reasoning 84.2% 멀티모달 이해
SWE-Bench Verified 81.0% 실제 코드 수정

단, SWE-Bench 81.0%는 Claude Opus 4.7(87.6%)보다 낮습니다. 그리고 장문 컨텍스트 검색(MRCR v2 128k)에서는 Gemini 3.1 Pro가 84.9% vs Flash 77.3%로 Pro가 우위를 유지합니다. 에이전트·코딩은 Flash, 장문 검색·추론은 여전히 Pro라는 구도입니다.


실전 API 사용법

기본 호출 (Python)

from google import genai
from google.genai import types

client = genai.Client()

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="PR 코드 리뷰를 수행하고 잠재적 버그를 3가지 이상 찾아줘.",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(
            thinking_level="medium"  # minimal | low | medium | high
        )
    )
)

print(response.text)

중요 마이그레이션 주의사항: 이전 Gemini 모델에서 thinking_budget (정수)를 사용하던 코드는 반드시 thinking_level (문자열 enum)으로 교체해야 합니다. 그대로 사용하면 기존 모델보다 나쁜 결과가 나올 수 있습니다.

thinking_level 선택 기준

# 빠른 응답이 필요한 챗봇, 간단한 질문
config_fast = {"thinking_level": "minimal"}

# 코드 생성, 에이전트 실행 (일반 개발 작업)
config_agent = {"thinking_level": "low"}

# 기본값 — 대부분의 케이스에 적합
config_default = {"thinking_level": "medium"}

# 복잡한 추론, 아키텍처 설계, 어려운 디버깅
config_hard = {"thinking_level": "high"}

함수 호출(Tool Use) 예제

from google import genai
from google.genai import types

def get_pr_diff(pr_number: int) -> str:
    """PR diff를 가져오는 도구"""
    # 실제 구현에서는 GitHub API 호출
    return f"PR #{pr_number} diff content..."

tools = [get_pr_diff]

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="PR #42의 diff를 분석하고 보안 취약점을 찾아줘.",
    config=types.GenerateContentConfig(
        tools=tools,
        thinking_config=types.ThinkingConfig(thinking_level="high")
    )
)

컨텍스트 캐싱 (비용 절감 핵심)

긴 코드베이스나 문서를 반복 참조하는 에이전트 세션에서 캐시 입력은 일반 입력의 10%(0.15 vs 1.50)입니다.

# 긴 시스템 프롬프트나 코드베이스를 캐싱
cache = client.caches.create(
    model="gemini-3.5-flash",
    contents=[large_codebase_content],
    ttl="3600s"  # 1시간 캐시 유지
)

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="이 코드베이스에서 인증 관련 버그를 찾아줘.",
    config=types.GenerateContentConfig(
        cached_content=cache.name
    )
)

Antigravity와의 통합 — 12배 속도의 비밀

Google I/O에서 공개된 중요한 수치 중 하나는 Antigravity 내부에서 Gemini 3.5 Flash가 퍼블릭 API 대비 12배 속도로 동작한다는 점입니다. 이는 Google이 자사 에이전트 플랫폼에 특별히 최적화된 추론 경로를 따로 구축했음을 의미합니다.

Antigravity에서는 thinking_level 설정이 자동으로 작업 복잡도에 맞게 조정되며, 서브에이전트 병렬 실행 시에도 각 에이전트가 독립적인 컨텍스트를 유지하면서 Flash 모델을 호출합니다. Gemini API Managed Agents도 동일하게 Gemini 3.5 Flash를 기본 엔진으로 사용합니다.


경쟁 모델 대비 포지셔닝

모델 입력 단가 SWE-Bench 속도 강점

Gemini 3.5 Flash $1.50 81.0% ★★★★★ 에이전트, 도구 호출, 멀티모달
Claude Sonnet 4.6 $3.00 79.6% ★★★★ 코드 정확도, Claude Code
GPT-5.5 82.7% (TBench 2.0) ★★★ 추론, 장문
Claude Opus 4.7 $5.00 87.6% ★★ 최고 정확도
Grok 4.3 $1.25 70.8% ⚠️ ★★★ 백엔드 아키텍처

MCP Atlas(83.6%)에서 GPT-5.5를 앞선다는 점이 특히 주목할 만합니다. 고볼륨 에이전트 툴체인에서는 현재 가격 대비 성능 기준으로 가장 강력한 선택지입니다.


언제 쓰고, 언제 다른 모델을 쓸까

Gemini 3.5 Flash가 적합한 케이스

  • MCP 도구를 다수 호출하는 에이전트 워크플로
  • 멀티모달 입력이 필요한 파이프라인 (이미지·오디오·비디오)
  • 고속 처리가 필요한 대량 배치 작업
  • Google Cloud / Antigravity 스택 기반 프로젝트

다른 모델이 더 나은 케이스

  • 첫 시도에 반드시 정확해야 하는 코드 리뷰 → Claude Sonnet 4.6 / Opus 4.7
  • 128K 이상 장문 검색·RAG → Gemini 3.1 Pro
  • OpenAI 에코시스템과 강한 통합 필요 → GPT-5.5

✅ 결론

항목 평가

에이전트·코딩 성능 ✅ Flash 티어 사상 최강, Pro 티어 역전
가격 효율 ✅ Pro 대비 25% 저렴하면서 성능 우위
속도 ✅ 프론티어 모델 중 최고 수준 (4배)
장문 검색 성능 ⚠️ 여전히 Pro가 우위
코딩 최고 정확도 ❌ Claude Opus 4.7(87.6%)에 못 미침
멀티모달 ✅ 텍스트·이미지·오디오·비디오 통합
생태계 통합 ✅ Antigravity, AI Studio, Search 전면 적용

Gemini 3.5 Flash는 단순히 "빠른 Flash 모델"이 아닙니다. 에이전트 시대에 맞게 재설계된 실행 최적화 모델입니다. 고볼륨 도구 호출과 멀티모달 파이프라인이 핵심인 팀이라면 지금 바로 평가할 가치가 있습니다. Gemini 3.5 Pro는 내달(6월) 공개 예정으로, Pro가 추가되면 구도가 또 한 번 바뀔 것입니다.

 

반응형