반응형

gemini 3.1 2

Gemini 3.1 Flash Live 완전 가이드 — STT+LLM+TTS 파이프라인을 단일 WebSocket으로

음성 AI 에이전트를 만들 때마다 세 가지 서비스를 붙여야 했습니다. STT, LLM, TTS. Gemini 3.1 Flash Live는 이 전체를 하나의 WebSocket 연결로 교체합니다.[핵심 요약]→ 출시: 2026년 3월 26일 (Gemini Live API)→ 모델 ID: gemini-3.1-flash-live-preview→ 핵심: 오디오 in → 오디오 out, STT/TTS 별도 불필요→ 레이턴시: 200ms 이하 — 실제 대화 속도→ 방식: 양방향 WebSocket 스트리밍 (REST 아님)→ 인터럽션: 사용자가 말 끊으면 모델이 멈추고 들음→ 언어: 90개+ 지원, 멀티링구얼 실시간 전환→ 툴 호출: Function Calling 지원 (단, 현재 블로킹 방식)→ 멀티모달: 오디오 +..

AI 개발 2026.04.27

Gemini 3.1 Flash TTS 완전 가이드 — 자연어로 AI 목소리를 연출하는 법

"긴장감 있게 읽어줘", "여기서 잠깐 멈춰", "속삭이듯이". 이제 이 말 한 마디로 AI 목소리를 연출할 수 있습니다.[핵심 요약]→ 출시: 2026년 4월 15일 (Google, 프리뷰)→ 핵심: SSML 없이 자연어로 음성 스타일 제어→ 오디오 태그: 200개+ ([excitement], [whispers], [slow] 등)→ 멀티 스피커: 단일 API 호출로 여러 화자 동시 생성→ 언어: 70개+ 지원→ 벤치마크: Artificial Analysis TTS Elo 1,211 — 공개 TTS 최고점→ 가격: 입력 $1/1M 토큰, 출력 $20/1M 토큰 / AI Studio 무료 체험 가능→ 모델 ID: gemini-3.1-flash-tts-preview기존 TTS와 뭐가 다른가TTS는 오랫동안..

AI 개발 2026.04.24
반응형