Gemini 3.1 Flash TTS - 자연어로 음성 스타일을 제어하는 차세대 AI 음성 모델

Google이 Gemini 3.1 Flash TTS를 공개했다. 자연어 기반 오디오 태그와 장면 지시를 통해 말투·속도·억양·다중 화자 대화를 세밀하게 제어할 수 있는 음성 생성 모델이다.

개요

2026-04-15 GeekNews 요약과 Google Blog를 기준으로, Gemini 3.1 Flash TTS는 Google의 최신 텍스트-투-스피치 모델로서 자연스러움, 표현력, 제어성을 함께 밀어 올린 음성 생성 계열 업데이트다. 단순히 텍스트를 읽는 수준이 아니라, 오디오 태그와 자연어 지시를 텍스트 안에 넣어 스타일·속도·전달 방식·화자 특성을 세밀하게 조정할 수 있다는 점이 핵심이다.

이 모델은 개발자에게는 Gemini API와 Google AI Studio, 기업에는 Vertex AI, 일반 Workspace 사용자에게는 Google Vids를 통해 프리뷰로 제공된다. 즉 하나의 모델 업데이트가 API, 엔터프라이즈 플랫폼, 협업용 생산성 앱까지 동시에 확장되는 구조다.

핵심 포인트

  • Gemini 3.1 Flash TTS는 Google의 최신 고표현력 TTS 모델
  • gemini-3.1-flash-tts-preview 모델 ID로 제공되며 저지연·제어 가능한 음성 생성에 최적화
  • [whispers], [laughs] 같은 오디오 태그와 자연어 지시로 말투·속도·감정 표현을 세밀하게 제어 가능
  • 70개 이상 언어를 지원하고, 네이티브 다중 화자 대화를 지원
  • Artificial Analysis TTS 리더보드에서 Elo 1,211을 기록했고, 고품질과 저비용의 균형이 강점으로 소개됨
  • AI Studio에서 오디오 프로필, 장면 설명, director’s notes를 조합해 프롬프트를 만든 뒤 코드로 내보낼 수 있음
  • 생성 오디오 전부에 SynthID 워터마크를 삽입해 AI 생성물 탐지 가능성을 유지

왜 중요한가

최근 TTS 흐름은 2026-04-12-omnivoice-multilingual-tts처럼 초광범위 언어 지원, 2026-03-21-voicebox처럼 로컬 우선 보이스 클로닝, 2026-04-04-whispree-korean-stt-llm-voice-input처럼 음성 인터페이스의 실사용 제품화로 갈라져 있었다. Gemini 3.1 Flash TTS는 이 중 “정교한 지시 가능성”을 Google 스택 전반에 통합한 사례다.

특히 오디오 태그와 장면 지시의 결합은 TTS를 단순 낭독 엔진이 아니라 “프롬프트 가능한 퍼포먼스 엔진”으로 바꾼다. 이는 앞으로 음성 에이전트, 내레이션, 튜토리얼, 고객 응대, 팟캐스트 스타일 생성까지 더 넓은 애플리케이션 층에서 활용될 가능성을 키운다.

Sources