텍스트·이미지·오디오로 영상을 만든다

"프롬프트 하나로 영상을 뽑고, 대화하듯 수정한다." Google이 I/O 2026에서 공개한 Gemini Omni는 AI 영상 생성의 패러다임을 바꿨다. Veo 시리즈가 "생성 전문 모델"이었다면, Omni는 텍스트·이미지·오디오·기존 영상을 모두 입력으로 받아 영상을 출력하는 "멀티모달 통합 모델"이다. Seedance 2.0, Kling 3.0, Sora 2와 어떻게 다른지 구조부터 실전 활용까지 전부 정리했다.

핵심 요약

→ Gemini Omni는 텍스트·이미지·오디오·기존 영상을 입력받아 물리 법칙을 반영한 영상을 출력하는 Google DeepMind의 새 멀티모달 모델 패밀리 — 5월 19일 I/O 2026에서 공개, 첫 번째 모델 Omni Flash 즉시 출시
→ Veo를 Gemini 앱 내에서 완전히 대체 — 클립 길이 약 10초, 동기화된 오디오 포함 출력
→ 가장 큰 차별점 — 경쟁 모델은 "생성 후 재프롬프트" 반복이지만, Omni는 생성된 영상을 대화로 수정하는 대화형 편집 지원
→ Gemini 앱, Google Flow, YouTube Shorts에서 동시 출시 — YouTube Shorts는 무료 접근 가능
→ 10초 클립 제한은 모델 한계가 아닌 배포 선택 — Google이 향후 확장 예고
→ 순수 영상 품질 1위는 아직 Seedance 2.0 (Elo 1,269) — Omni의 강점은 품질보다 워크플로우 통합과 대화형 편집
→ 이미지·오디오 출력 기능은 Omni 패밀리 후속 모델에서 추가 예정 — 현재는 영상 출력만

1. Gemini Omni가 뭔가 다른가

Omni는 텍스트·이미지·영상 생성을 하나의 멀티모달 모델에서 통합 처리하는 첫 번째 최상위 AI 시스템을 목표로 한다 — 기존 Veo는 순수 영상 생성 전문 모델이었다.

# Veo 3.1 vs Gemini Omni Flash 구조 차이

Veo 3.1 (기존)
├── 입력: 텍스트 + 이미지 (선택)
├── 출력: 영상 + 오디오 (별도 파이프라인)
├── 편집: 재프롬프트로 새 영상 생성
└── 4K, 최대 8초 (확장 가능)

Gemini Omni Flash (신규)
├── 입력: 텍스트 + 이미지 + 오디오 + 기존 영상 → 동시 처리
├── 출력: 영상 + 동기화 오디오 (단일 파이프라인)
├── 편집: 생성된 영상을 대화로 수정 ← 핵심 차별점
└── 최대 10초 (배포 제한, 향후 확장 예정)

I/O 2026 발표에서 핵심 메시지는 어시스턴트에서 에이전트로의 전환 — Omni는 그 흐름에서 창작 도구의 에이전트화를 담당한다.

2. 대화형 편집 — 경쟁사와 가장 다른 점

2026년의 다른 모든 AI 영상 모델 — Veo 3.1, Seedance 2.0, Kling 3.0, Runway Gen-4.5 — 은 동일한 루프로 작동한다: 클립 생성 → 결과 확인 → 재프롬프트 후 재생성.

Omni는 이 루프를 깨는 방식으로 접근한다.

# 기존 영상 AI 워크플로우 (Seedance / Kling / Sora)

프롬프트 입력
    ↓
영상 생성 (2~10분)
    ↓
결과 확인 → 마음에 안 듦
    ↓
프롬프트 수정 → 처음부터 재생성 (또 2~10분)
    ↓ (반복)
최종 클립 확정

# Gemini Omni 워크플로우

프롬프트 입력
    ↓
영상 생성
    ↓
결과 확인 → "배경을 석양으로 바꿔줘"
    ↓
해당 부분만 수정 (재생성 없이)
    ↓
"인물이 왼쪽으로 돌아보게 해줘"
    ↓
점진적 완성

대화형 편집 — "배경을 석양으로 만들어" 또는 "사람이 돌아보게 해줘" — 이 Gemini 인터페이스 안에서 동작한다. 이것이 Omni Flash를 경쟁사와 구분하는 핵심이다.

3. 실제 사용 방법

Gemini 앱에서 사용

# 접근 경로
gemini.google.com → 영상 생성 탭 → "Powered by Omni"

# 기본 사용법 (텍스트 → 영상)
프롬프트: "도쿄 시부야 교차로, 비 오는 밤, 카메라가 천천히 줌인,
          사람들이 우산을 쓰고 걷는 모습, 네온사인 반사"

출력: ~10초 클립 + 동기화 오디오 (빗소리, 도시 소음)

# 이미지 + 텍스트 → 영상 (Image-to-Video)
1. 참조 이미지 업로드 (제품 사진, 캐릭터 일러스트 등)
2. 프롬프트: "이 인물이 천천히 고개를 들어 카메라를 바라보게 해줘"
3. Omni가 이미지의 스타일·인물 유지하며 영상 생성

# 오디오 입력 활용 (Audio-to-Video)
1. 음악 파일 또는 내레이션 업로드
2. 프롬프트: "이 음악의 분위기에 맞는 추상적 시각 효과 영상 만들어줘"
3. 오디오 리듬·감성에 맞춰 영상 동기화 생성

Google Flow에서 사용 (크리에이터 특화)

# Google Flow — 영상 제작 전문 워크스페이스
flow.google.com

주요 기능
├── Flow Agent: 브레인스토밍 + 배치 편집 자동화
├── Gemini Omni: 인라인 영상 생성·편집
├── 파트너 툴: pixelBento 등 서드파티 편집 툴 갤러리
└── 4K 출력 지원 (웹 버전)

# Flow Android 베타 앱 출시 (Google Play)
└── "Google Flow Beta" 검색 → 설치

YouTube Shorts에서 무료 사용

# Shorts 창작자 → 무료 접근 경로
1. YouTube Studio 앱 또는 웹
2. Shorts 제작 → "AI로 만들기"
3. Omni Flash로 배경·트랜지션·효과 생성

# 활용 시나리오
- 정적 이미지에 움직임 추가
- 썸네일 이미지를 짧은 영상 클립으로 전환
- 브이로그 배경 B-roll 자동 생성

4. 경쟁 모델 비교 — 솔직하게

단일 샷 품질 승자: Seedance 2.0 — 자연주의적 장면(실제 물리, 인물 동작, 환경 디테일)에서 Seedance가 현재 최고점을 찍고 있다.

항목 Gemini Omni Flash Seedance 2.0 Kling 3.0 Sora 2

최대 클립 길이	10초	15초	제한 없음(크레딧)	25초
입력 형식	텍스트+이미지+오디오+영상	텍스트+이미지+오디오 (최대 12파일)	텍스트+이미지	텍스트+이미지
대화형 편집	✅	❌	❌	△(Storyboard)
오디오 동기화	✅	✅	✅	✅
순수 영상 품질	△ (출시 초기)	✅ 현재 1위	✅ 높음	✅ 높음
무료 접근	✅ YouTube Shorts	❌	✅ 66크레딧/일	❌
Google 생태계 통합	✅	❌	❌	❌
API 공개	미정	✅ (fal.ai)	✅	✅

# 어떤 걸 써야 하나 — 시나리오별

최고 화질 단발성 영상 → Seedance 2.0
  (자연주의 장면, 인물 모션, 시네마틱)

반복 편집이 많은 콘텐츠 제작 → Gemini Omni Flash
  (대화형 수정, Google 툴체인 연동)

무료로 시작하고 싶다 → Kling 3.0 (66크레딧/일) 또는 YouTube Shorts(Omni)

긴 클립 필요 → Sora 2 (25초) 또는 Seedance 2.0 (15초)

Google Workspace + 영상 제작 통합 → Omni + Flow 조합

5. Omni 패밀리 로드맵

# 현재 (2026년 5월)
Gemini Omni Flash
└── 출력: 영상만 (10초, 오디오 포함)
└── 이미지·텍스트·오디오·영상 → 영상 변환

# 예정 (시기 미발표)
Omni 패밀리 후속 모델
├── 이미지 출력 추가 (Nano Banana 대체 가능성)
├── 오디오 출력 추가
├── 클립 길이 제한 해제 (Google 공식 확인)
└── "anything from anything" 완전 실현

6. 주의사항

❌ 현재 한계

영상 품질
→ 출시 초기 — Seedance 2.0 대비 자연주의적 장면 품질 아직 격차 존재
→ 독립 벤치마크 결과 누적 중 (48시간 테스트 수준)

길이 제한
→ 10초 — 광고·뮤직비디오·스토리텔링용으론 부족
→ Sora 2(25초), Seedance 2.0(15초) 대비 불리

API 미공개
→ 개발자가 직접 통합하려면 Flow/Gemini 앱 통해야 함
→ Seedance(fal.ai), Kling API 대비 불리

저작권
→ 실존 인물·IP가 포함된 프롬프트는 Google 정책으로 차단
→ Seedance 할리우드 소송 이슈와 동일선상 — 크리에이터 주의 필요

✅ 결론

✅ Gemini Omni가 잘하는 것 — 대화형 반복 편집, Google 생태계 통합(Flow/Shorts), 멀티모달 입력
✅ YouTube Shorts 크리에이터 — 무료로 바로 쓸 수 있는 가장 쉬운 접근법
✅ Google Workspace 헤비유저 — Docs·Drive·Gmail 연동 + 영상 제작 원스톱

❌ 순수 영상 품질 최고를 원한다면 → 아직 Seedance 2.0
❌ 긴 클립이 필요하다면 → Sora 2 또는 Seedance
❌ API로 직접 통합이 필요하다면 → 공개까지 대기

'Gemini' 카테고리의 다른 글

Gemini 3.5 Flash 출시 9일 — 실제 사용자들은 뭐라고 했나 (0)	2026.05.28
Gemini 3.5 Flash 가격 3배 인상의 전략적 의미 — Google이 Flash를 프리미엄으로 올린 이유 (0)	2026.05.28
Flash가 Pro를 이겼다는 게 정말 맞나 — 벤치마크 신뢰성 5가지 논점 (0)	2026.05.26
API 호출 한 번으로 격리 Linux 에이전트가 뜬다 — Gemini Managed Agents 실전 코드 (0)	2026.05.26
에이전트 코드 다 짤 필요 없습니다 — Managed Agents vs 직접 오케스트레이션 실전 비교 (0)	2026.05.26

CELL AI DEVLOG

텍스트·이미지·오디오로 영상을 만든다 — Gemini Omni 완전 분석

핵심 요약

1. Gemini Omni가 뭔가 다른가

2. 대화형 편집 — 경쟁사와 가장 다른 점

3. 실제 사용 방법

Gemini 앱에서 사용

Google Flow에서 사용 (크리에이터 특화)

YouTube Shorts에서 무료 사용

4. 경쟁 모델 비교 — 솔직하게

5. Omni 패밀리 로드맵

6. 주의사항

✅ 결론

'Gemini' 카테고리의 다른 글

티스토리툴바

텍스트·이미지·오디오로 영상을 만든다 — Gemini Omni 완전 분석

핵심 요약

1. Gemini Omni가 뭔가 다른가

2. 대화형 편집 — 경쟁사와 가장 다른 점

3. 실제 사용 방법

Gemini 앱에서 사용

Google Flow에서 사용 (크리에이터 특화)

YouTube Shorts에서 무료 사용

4. 경쟁 모델 비교 — 솔직하게

5. Omni 패밀리 로드맵

6. 주의사항

✅ 결론

'Gemini' 카테고리의 다른 글

'Gemini' Related Articles

티스토리툴바