I/O 2026에서 Gemini Omni Flash가 발표된 직후 가장 많이 나온 질문이 하나 있습니다. "그러면 Veo 3.1은 이제 버려지는 건가요?" 정답은 아닙니다. 두 모델은 같은 회사에서 나왔지만 완전히 다른 문제를 풀고 있습니다.
핵심 요약 → Gemini Omni Flash: 2026.05.19 출시, 텍스트·이미지·오디오·비디오 멀티모달 입력 → 영상 출력 → Veo 3.1: 2025.10.15 출시, 텍스트·이미지 입력 → 네이티브 오디오 동기화 8초 영상 → Omni 강점: 대화형 편집, 멀티모달 입력, 4초~10초 가변 클립 → Veo 강점: 오디오 립싱크 정확도, 씬 익스텐션(최대 148초), GA API 안정성 → Gemini 앱 기본값: Omni Flash로 교체 (소비자) → 개발자 API: Veo 3.1이 여전히 공식 권장 (GA, 문서화 완료) → Omni API: "coming weeks" — 아직 개발자 접근 불가 → 가격: Veo $0.05~$0.60/초 (3티어), Omni 아직 미공개
왜 Google이 두 모델을 동시에 운영하나
# 두 모델의 설계 철학 차이
Veo 3.1 — "최고 품질의 전문 비디오 생성"
설계 목적: 텍스트/이미지 → 최고 화질 영상 + 오디오
아키텍처: 비디오 특화 생성 모델
핵심 역량: 네이티브 오디오 동기화, 씬 익스텐션
사용자: 크리에이터, 광고 팀, 프로덕션
Gemini Omni Flash — "어떤 입력에서든 영상 창작"
설계 목적: 멀티모달 입력 → 대화형 반복 편집
아키텍처: Gemini 추론 + 생성 미디어 통합
핵심 역량: 레퍼런스 기반 생성, 대화형 편집
사용자: 소비자, 소셜 크리에이터, YouTube Shorts
→ Demis Hassabis: "Gemini의 추론 능력이 창작 능력을 만나는 지점"
→ Veo는 "최고 화질 생성기"
→ Omni는 "지능형 창작 파트너"
1. 스펙 전체 비교표
항목 Gemini Omni Flash Veo 3.1 (Fast) Veo 3.1 (Quality)
| 출시 | 2026.05.19 | 2025.10.15 | 2025.10.15 |
| 입력 | 텍스트+이미지+오디오+비디오 | 텍스트+이미지 | 텍스트+이미지 |
| 출력 | 비디오+오디오 | 비디오+오디오 | 비디오+오디오 |
| 클립 길이 | 4~10초 | 최대 8초 | 최대 8초 |
| 씬 익스텐션 | ❌ | ✅ (최대 148초) | ✅ |
| 해상도 | 최대 4K | 720p/1080p/4K | 4K |
| 오디오 립싱크 | 기본 지원 | ✅ 높은 정확도 | ✅ 최고 정확도 |
| 대화형 편집 | ✅ 핵심 기능 | ❌ (재생성만) | ❌ |
| 레퍼런스 이미지 | ✅ (멀티모달 입력) | ✅ (Fast 이상) | ✅ |
| 오디오 입력 | ✅ | ❌ | ❌ |
| API 상태 | ❌ (미공개) | ✅ GA | ✅ GA |
| 가격/초 | 미공개 | ~$0.15 (720p) | ~$0.40 (1080p) |
| Gemini 앱 | ✅ 기본값 | 제거됨 | 제거됨 |
| YouTube Shorts | ✅ 무료 | ❌ | ❌ |
2. Omni의 핵심 차별점 — 대화형 편집
Veo 3.1의 편집 방식은 재생성(re-generation)입니다. 각 편집이 수정된 프롬프트로 처음부터 새로 생성됩니다. Omni Flash는 채팅 기반의 점진적 편집을 지원합니다.
# 편집 워크플로 비교
Veo 3.1 편집 방식:
프롬프트 작성 → 생성 → 마음에 안 듦 → 프롬프트 수정 → 재생성
→ 매번 처음부터 새로 만듦
→ 이전 결과 컨텍스트 없음
→ 반복할수록 비용 선형 증가
Gemini Omni Flash 편집 방식:
프롬프트 작성 → 생성 → 대화로 수정 요청 → 점진적 편집
→ "카메라 앵글을 더 넓게 해줘"
→ "배경 음악을 더 차분하게 바꿔줘"
→ "오른쪽에 있는 사람 제거해줘"
→ Gemini 추론으로 이전 컨텍스트 유지
→ 정밀한 부분 수정 가능
3. Veo 3.1의 핵심 차별점 — 네이티브 오디오와 씬 익스텐션
네이티브 오디오 동기화
Veo 3.1의 네이티브 오디오는 세 가지를 동시에 생성합니다: 캐릭터 립무브먼트에 동기화된 대화와 음성, 화면 동작에 매칭된 효과음, 환경 사운드스케이프. DeepMind는 이를 "AI 비디오의 무성영화 시대 종식"이라 표현했습니다.
Omni Flash도 기본 오디오를 지원하지만, 대화 동기화와 립싱크 정확도에서는 Veo 3.1이 여전히 우위입니다. Omni의 오디오 차별점은 출력이 아닌 입력 — 오디오를 입력으로 받아서 영상에 반영할 수 있다는 것입니다.
씬 익스텐션 — Omni가 아직 못 하는 것
# Veo 3.1 씬 익스텐션 — 최대 148초 생성 가능
import google.generativeai as genai
client = genai.Client()
# 1단계: 첫 클립 생성
initial = client.models.generate_video(
model="veo-3.1-generate-preview",
prompt="서울 도심 골목길을 걷는 장면, 저녁 노을",
config={
"duration_seconds": 8,
"resolution": "1080p",
"generate_audio": True
}
)
task_id = initial.task_id
# 결과 폴링
import time
while True:
result = client.models.get_video_generation(task_id)
if result.status == "completed":
video_uri = result.video.uri
break
time.sleep(5)
# 2단계: 씬 익스텐션 (7초씩 최대 20번 = 148초)
extensions = []
prev_uri = video_uri
for i in range(3): # 3번 연장 = 총 약 29초
extended = client.models.generate_video(
model="veo-3.1-generate-preview",
prompt="계속 걸으면서 카메라가 자연스럽게 따라감",
config={
"extend_video": {
"base_video_uri": prev_uri,
"duration_seconds": 7
}
}
)
# 폴링 후 다음 익스텐션
# ...
prev_uri = extended_uri
# → Gemini Omni Flash는 현재 씬 익스텐션 미지원
# → 단일 클립 최대 10초로 제한
4. 가격 상세 비교
# Veo 3.1 가격 체계 (2026.05 기준, 초당 과금)
Veo 3.1 Lite (2026.03.31 출시):
오디오 없음: ~$0.03/초
오디오 포함: ~$0.05/초
→ 8초 클립: $0.24~$0.40
→ 대량 소셜 콘텐츠, 프로토타이핑용
Veo 3.1 Fast:
720p/1080p 오디오 없음: $0.10/초
720p/1080p 오디오 포함: $0.15/초
4K 오디오 없음: $0.30/초
4K 오디오 포함: $0.35/초
→ 8초 클립: $0.80~$2.80
→ 레퍼런스 이미지, 4K 필요 시
Veo 3.1 Quality/Standard:
1080p 오디오 없음: $0.20/초
1080p 오디오 포함: $0.40/초
4K 오디오 없음: $0.40/초
4K 오디오 포함: $0.60/초
→ 8초 클립: $1.60~$4.80
→ 최고 품질 상업 제작
Gemini Omni Flash:
→ API 미공개 (Gemini 앱·YouTube Shorts 무료)
→ Vertex AI 출시 시 $0.42/클립(4초 720p) 예상
→ 8초 클립 기준 Veo Fast보다 비쌀 가능성
# 구독 플랜 접근:
Google AI Plus ($7.99/월) → Veo 3.1 Fast + Omni Flash 포함
Google AI Pro ($19.99/월) → 상위 기능
Google AI Ultra ($249.99/월) → 전체 Veo 3.1 Quality + 4K
5. "Gemini 앱에서 Veo가 사라졌다" — 무슨 의미인가
2026년 5월부터 Gemini 앱에서 비디오를 생성하면 백엔드가 더 이상 Veo 시리즈를 기본값으로 호출하지 않고 Gemini Omni Flash를 사용합니다. 일반 소비자에게는 멀티모달 추론, 대화형 편집, 물리 이해 측면에서 Omni가 개선입니다. Veo는 소비자 영역에서 조용히 배경으로 물러났습니다.
그러나 개발자 영역은 다릅니다.
개발자가 Gemini API, Vertex AI, Google AI Studio를 통해 비디오 생성을 호출할 때 Veo 3.1은 여전히 공식 문서에서 명시적으로 권장되는 "비디오 모델 기준선"입니다. 모델 ID veo-3.1-generate-preview는 여전히 유효하고, 가격도 동일하며, 기능은 오히려 더 풍부해졌습니다.
# 채널별 기본값 정리
소비자 채널:
Gemini 앱 → Omni Flash (교체됨)
YouTube Shorts → Omni Flash (무료)
YouTube Create → Omni Flash
Google Flow → Omni Flash (+ Veo도 선택 가능)
개발자 채널:
Gemini API → Veo 3.1 (GA, 문서화됨)
Vertex AI → Veo 3.1 (GA)
Google AI Studio → Veo 3.1 (GA)
Omni API → 미공개 ("coming weeks")
결론:
소비자 = Omni가 앞으로 나옴
개발자 = 지금 당장은 Veo 3.1이 유일한 안정적 선택지
6. 실전 선택 가이드
# 워크로드별 모델 선택 로직
def choose_video_model(task: dict) -> str:
"""
태스크 특성에 따른 최적 모델 선택
"""
# Gemini Omni Flash 선택 케이스
omni_cases = {
"storyboarding": "여러 장면을 빠르게 반복 수정",
"moodboard_to_video": "이미지 레퍼런스 + 텍스트 + 오디오 혼합 입력",
"social_shorts": "YouTube Shorts / TikTok용 (무료)",
"iterative_editing": "대화로 세부 조정이 많은 작업",
"consumer_app": "Gemini 앱 기본값",
"avatar_creation": "캐릭터 아바타, 디지털 휴먼",
}
# Veo 3.1 선택 케이스
veo_cases = {
"long_video": "10초 이상 씬 익스텐션 필요 (최대 148초)",
"precise_lipsync": "대화 장면 립싱크 정확도 최우선",
"production_quality": "광고, 상업 제작 최고 화질",
"api_production": "지금 당장 GA API 필요 (Omni API 미출시)",
"cinematic": "카메라 무브먼트, 영화적 연출",
"4k_native": "4K 네이티브 출력 필요",
}
# 비용 최적화 선택
if task.get("volume") == "high" and task.get("quality") == "draft":
return "Veo 3.1 Lite ($0.05/초)"
if task.get("needs_extension") and task.get("duration") > 10:
return "Veo 3.1 Fast (씬 익스텐션)"
if task.get("api_needed_now"):
return "Veo 3.1 (유일한 GA API)"
if task.get("conversational_editing"):
return "Gemini Omni Flash (Gemini 앱 또는 Flow)"
# 기본 권장: 현재 API 개발은 Veo, 소비자 워크플로는 Omni
return "Veo 3.1 Fast (범용)"
7. 실전 워크플로 — 두 모델을 함께 쓰는 방법
2026년 가장 효과적인 AI 비디오 워크플로는 프로젝트당 여러 모델을 사용합니다 — Omni로 스토리보딩과 반복 편집을 하고, Veo로 최종 렌더링을 하는 방식입니다.
# 실전 프로젝트 워크플로
광고 제작 시나리오:
1단계: 아이디어 탐색 (Omni Flash — Gemini 앱)
→ 대화로 빠르게 10~20개 씬 스케치
→ "배경을 도시에서 자연으로 바꿔줘"
→ "조명을 더 따뜻하게"
→ 무료 or 구독 비용 내에서 반복
2단계: 선택된 씬 프로덕션 (Veo 3.1 Fast API)
→ 최종 채택된 3~5개 씬만 Veo로 고품질 생성
→ 네이티브 오디오 동기화
→ 필요 시 씬 익스텐션으로 길이 늘림
3단계: 최고 화질 최종본 (Veo 3.1 Quality)
→ 납품용 4K 클립만 Quality 티어
→ 비용: 8초 × $0.60 = $4.80/클립
총 비용:
1단계(Omni): 무료~구독
2단계(Veo Fast): 8초 × $0.15 × 5개 = $6
3단계(Veo Quality): 8초 × $0.60 × 2개 = $9.60
→ 총 약 $15~20로 광고 시안 제작 완료
결론
✅ Gemini Omni Flash를 선택해야 할 때
- 대화로 영상을 빠르게 반복 수정하는 이터레이션 워크플로
- 이미지·오디오·영상을 동시에 참조해서 새 영상 만들기
- YouTube Shorts, Gemini 앱 무료 접근으로 충분한 소셜 콘텐츠
- 스토리보딩·무드보드 단계의 아이디어 탐색
✅ Veo 3.1을 선택해야 할 때
- 지금 당장 개발자 API가 필요한 프로덕션 (Omni API 미출시)
- 씬 익스텐션으로 10초 이상 영상 필요 (최대 148초)
- 대화 장면 립싱크 최고 정확도 필요
- 4K 네이티브 출력이 요구되는 상업 제작
❌ 아직 결정을 미뤄도 되는 이유
- Omni API 출시 시 두 모델 선택 구도가 명확해짐
- Omni Pro (더 높은 해상도) 예정 — Veo Quality 대체 가능성
- 6월 Gemini 3.5 Pro 출시와 함께 Omni 로드맵 추가 발표 가능성
관련 글