본문 바로가기

AI 개발

Antigravity 쿼터 사태 전말 — 출시 2일, 9배 증가, Flash Low 긴급 출시까지 6일의 기록

반응형

2026년 5월 19일 오전, Gemini 3.5 Flash가 출시됐습니다. 같은 날 오후, Antigravity 유료 사용자들의 주간 쿼터가 사라지기 시작했습니다. 이후 6일 동안 Google이 한 것들을 시간 순서대로 정리했습니다.


핵심 요약 → May 19: Gemini 3.5 Flash GA 출시 — thinking 기본값 high, Thought Preservation 활성화 → May 19 오후: 유료 사용자 쿼터 "몇 시간 만에" 소진 보고 폭주 → May 21 오전 1:25: Varun Mohan(Google DeepMind Director) 공개 사과 + 쿼터 3배 + 리셋 → May 21: Reddit 실측 공개 — $278 vs $1,552, 5.6배 차이 → May 21: GitHub Copilot에서 Gemini 전 모델 제거 → May 22: Sundar Pichai CEO 직접 공개 사과 → May 24~25: 쿼터 추가 3배 (누적 9배) + thinking 기본값 high → medium 변경 → May 25: Gemini 3.5 Flash (Low) 신규 출시 + 세 번째 쿼터 리셋 → 9배 증가 후에도 30분 만에 쿼터 소진 보고 지속


배경 — Antigravity가 뭐고 왜 이게 문제인가

# Antigravity 플랫폼 소개

Google DeepMind가 운영하는 AI 코딩 플랫폼
  - Antigravity Desktop: VS Code 포크 — 코딩 에이전트 통합
  - Antigravity CLI: 터미널 퍼스트 코딩 에이전트
  - Antigravity SDK: 프로덕션 배포용

경쟁 포지션:
  Antigravity ↔ Cursor (Microsoft), Claude Code (Anthropic), Codex CLI (OpenAI)

과금 방식:
  구글 AI Plus ($7.99/월) → Antigravity 기본 접근
  구글 AI Pro ($19.99/월) → 더 많은 쿼터
  구글 AI Ultra ($199.99/월) → 최상위 쿼터
  → 모두 "주간 Gemini 쿼터" 기반

쿼터가 소진되면:
  → 해당 주 Antigravity에서 Gemini 사용 불가
  → 월요일 리셋까지 잠김

타임라인 전체 재구성

Day 0 — May 19 (출시일)

Google I/O 2026에서 Gemini 3.5 Flash GA 출시. thinking 기본값 high, Thought Preservation 기본값 ON.

오전: I/O 무대 발표 — "Flash가 Pro를 이겼다"
오후: Antigravity 유료 사용자 포럼·Reddit에 이상 신호
      "코드 몇 줄 고쳤는데 쿼터가 반 이상 날아갔다"
      "에이전트 루프 10번 돌렸는데 이번 주 끝났다"
저녁: 소셜미디어 전파 가속

Day 1 — May 20

Antigravity 쿼터 위기와 같은 날, GitHub Copilot에서 Gemini 전 모델이 제거됐습니다. "Gemini everywhere"가 "Gemini nowhere affordable"로 바뀐 날이었습니다.

May 20:
  Reddit r/ClaudeAI, r/cursor, r/aicoding에 관련 스레드 수십 개
  "Cursor + Composer 2.5로 갈아탔다"
  "GLM-5.1, DeepSeek V4 대안 추천" 스레드 급상승
  GitHub Copilot Gemini 전 모델 제거 공지 (별도 사건, 타이밍 겹침)

Day 2 — May 21 (첫 번째 대응)

오전 1시 25분, Varun Mohan(Google DeepMind Director, Antigravity 담당)이 X에 공식 발표했습니다: "업데이트: 모든 유료 플랜의 Gemini 레이트 리밋을 3배로 늘리고 이번 주 Gemini 쿼터를 전체 리셋합니다. 일부 사용자가 빠르게 한도에 도달한 것을 알고 빠르게 대응하고자 합니다."

# Reddit 커뮤니티 반응 (실제 댓글 요약)

reaction_scores = {
    "u/DocumentFun9077 (점수 51)":
        "3배라고? 그러면 한 주에 Opus 프롬프트 3개 쓸 수 있겠네",

    "u/KeyboardPolitics_Man (점수 47)":
        "3배지만 여전히 5월 17일 이전보다 낮다",

    "u/tadanada (점수 32)":
        "쿼터 3배 늘려봤자 5.6배 비싼 모델 쓰는 한 의미 없음",
}

# 같은 날 u/tadanada 실측 공개
benchmark_comparison = {
    "Gemini 3 Flash (이전)":    "$278  — 동일 벤치마크 실행 비용",
    "Gemini 3.5 Flash (신규)":  "$1,552 — 5.6배 차이",
    "원인 분석": "토큰 단가 3배 × Thought Preservation × thinking High = 5.6배"
}

Varun Mohan은 사용자들이 "몇 번의 작업 세션 후" 한도에 도달하고 있다고 인정하며 유료 플랜 쿼터를 리셋했습니다.

Day 3~4 — May 22~23

Sundar Pichai CEO가 직접 공개적으로 나서서 Gemini 사용 한도 개선을 약속했습니다. AI 코딩 도구에서 CEO가 직접 사과한 건 이례적인 사건이었습니다.

May 22: Sundar Pichai X 공개 사과
        "Gemini 사용 한도를 개선하겠습니다"
        (CEO가 직접 나선 건 사태의 심각성을 반증)

May 23: 내부 논의 — "쿼터를 더 늘리는 게 해결책인가,
         아니면 모델 자체를 경량화해야 하는가?"

Day 5 — May 24 (두 번째 대응)

며칠 후 Google이 쿼터를 추가로 3배 더 늘렸습니다. 누적 9배 증가. 동시에 기본 thinking level을 high에서 medium으로 변경했습니다.

쿼터 3배 추가 증가 (누적 9배)
thinking 기본값: high → medium 변경
두 번째 전체 쿼터 리셋

커뮤니티 반응:
  "9배 늘렸는데 30분 만에 또 소진됐다" 보고 지속
  → 쿼터 증가는 근본 해결책이 아님을 Google도 인지

Day 6 — May 25 (근본 해결책)

Varun Mohan이 발표했습니다: "Antigravity가 단순 작업에서 너무 많은 토큰을 소비한다는 우려를 들었습니다. 이를 위해 Gemini 3.5 Flash (Low)를 추가합니다. 내부 테스트에서 Medium 대비 약 45% 적은 토큰을 생성하면서도 소프트웨어 엔지니어링 태스크에서 Gemini 3 Flash (High)보다 일반적으로 우수한 성능을 보입니다."

May 25: Gemini 3.5 Flash (Low) 공식 출시
        세 번째 전체 쿼터 리셋
        thinking level 체계 공식 정리:

        Flash (Low)    = 단순 코딩 작업 (Medium 대비 45% 토큰 절감)
        Flash (Medium) = 기본값 (구 기본값 교체)
        Flash (High)   = 복잡한 추론 (구 기본값)

5.6배의 수학 — 정확히 무슨 일이 있었나

# 사태의 구조적 원인 분해

# 원인 1: 토큰 단가 인상
price_old = 0.50   # $0.50/1M (Gemini 3 Flash Preview)
price_new = 1.50   # $1.50/1M (Gemini 3.5 Flash)
price_multiplier = price_new / price_old  # 3.0배

# 원인 2: Thought Preservation 기본 활성화
# 에이전트 루프에서 추론 토큰이 턴마다 누적
# 10턴 기준 입력 토큰 약 91% 증가 (medium 기준)
thought_token_multiplier = 1.91  # 91% 증가

# 원인 3: thinking 기본값 high (출시 당시)
# high = medium 대비 약 2.4배 more thought tokens
thinking_high_vs_medium = 2.4

# Antigravity 에이전트 워크로드 특성:
# - 계획 스텝, 터미널 명령, 로그 검사 = 멀티턴 루프
# - 단순 코드 편집도 에이전트가 여러 스텝으로 처리
# - 컨텍스트 길이가 길수록 Thought Preservation 비용 증가

# 실제 측정된 배수
actual_multiplier = 5.6  # u/tadanada 실측

# 이론적 계산 (단순화)
theoretical = price_multiplier * thought_token_multiplier
# 3.0 × 1.91 = 5.73 ≈ 5.6 (실측과 일치)

커뮤니티의 반응 — 3파로 나뉜 개발자들

# 반응 유형 1: 이탈파 (약 35%)

"Cursor + Composer 2.5 ($0.10/태스크) 전환"
"OpenCode + DeepSeek V4-Flash ($0.14/1M) 조합"
"GLM-5.1, Qwen3.6 27B OpenRouter 경유"
"Claude Code 돌아왔습니다"

# 반응 유형 2: 방어파 (약 40%)

"9배 쿼터 증가 + Low 모드 = 사실상 같은 가격으로 더 많이"
"Flash Low가 Gemini 3 Flash High보다 SWE 성능 좋다니까"
"무료 티어면 오히려 엄청난 혜택"
"이미지 생성 쿼터도 올려줘야"

# 반응 유형 3: 비판파 (약 25%)

"9배 늘려도 2021년 ChatGPT Plus 수준도 안 됨"
"일일 프롬프트 방식 → 컴퓨트 기반 방식 전환
 = 사용량 예측이 불가능해짐"
"Ultra 플랜($199.99) 쓰는데 코드 30분 고치면 주간 소진"
"Codex는 1,000개 이미지 가능, Antigravity Ultra는 24개뿐"

사태 이후 남은 문제들

일일 프롬프트 제한에서 컴퓨트 기반 사용량으로의 전환은 사용자들이 자신이 얼마나 쓰고 있는지 예측하기 훨씬 어렵게 만들었습니다. 사용량 모니터링 인터페이스가 아직 불완전했고 사용자들은 여전히 불확실성을 호소하고 있습니다.

현재 (May 29 기준) 미해결 이슈:

1. 이미지 생성 쿼터
   → Ultra 플랜 24개/주 (Codex 1,000개 대비 압도적 열세)
   → Varun Mohan "올리는 게 맞다"고 했지만 약속 없음

2. 컴퓨트 기반 과금 불투명성
   → 사용량 예측 불가 = 업무 계획 불가
   → 실시간 사용량 대시보드 미완성

3. Free 플랜 사용자와의 형평성
   → 유료 사용자가 실제로는 Free보다 경험이 나쁜 역설

4. Antigravity 2.0 아키텍처 충돌
   → 에이전트 워크플로 자체가 토큰을 많이 쓰는 구조
   → Low 모드가 아닌 근본적 컨텍스트 압축이 필요

5. 경쟁 도구 대비 포지션
   → Cursor: Composer 2.5 $0.10/태스크 고정가
   → Claude Code: 토큰 기반이지만 예측 가능
   → Antigravity: 컴퓨트 기반 = 예측 불가

교훈 — 개발자·기업이 가져가야 할 것

# 이 사태가 남긴 교훈

개발자:
  ✅ 새 모델 출시 = 비용 재측정 필수
     (단가 변화만 보지 말고 실제 토큰 소비량 측정)
  ✅ 에이전트 루프는 단건 쿼리의 5~10배 토큰 소비
  ✅ thinking_level 명시 안 하면 조용히 비용 증가
  ✅ usage_metadata.thoughts_token_count 모니터링 추가

기업 구독자:
  ✅ 컴퓨트 기반 과금 = 월말 예산 충격 가능
     예산 설정 시 버퍼 50% 이상 확보
  ✅ 새 플랜 전환 전 1주일 파일럿 실측 필수
  ✅ 단일 벤더 의존도 낮추기 (멀티툴 정책)

Google에게:
  → Flash Low 출시 = 올바른 방향 (수요 측 최적화)
  → 컴퓨트 기반 과금 = 불투명성 해소가 선결 과제
  → Cursor 수준의 예측 가능한 태스크당 가격 모델 검토 필요

결론

Gemini 3.5 Flash (Low)는 단순히 쿼터를 늘리는 공급 측 대응(supply-side bandage)이 아닌, 개발자들이 토큰을 덜 쓸 수 있게 하는 수요 측 해결책이라는 점에서 방향이 올바릅니다.

Google이 잘한 것

  • 이틀 만에 공개 사과 + 쿼터 증가 (빠른 초기 대응)
  • CEO가 직접 나서서 개선 약속
  • Flash Low 출시 — 근본 원인(토큰 소비량)에 직접 개입
  • thinking 기본값 high → medium 수정

여전히 아쉬운 것

  • 출시 전 에이전트 워크로드 비용 시뮬레이션 부재 (예방 가능했던 사태)
  • 9배 쿼터 증가 후에도 30분 소진 사례 지속 — 근본 해결 미완
  • 컴퓨트 기반 과금의 불투명성 개선 없이 전환
  • 이미지 생성 쿼터 문제 미해결

한 줄 요약: "Gemini 3.5 Flash는 좋은 모델이다. 출시 방식이 나빴다."


관련 글


 

반응형