OmniVoice — 600+ 언어 제로샷 다국어 TTS

k2-fsa(Next-gen Kaldi 팀)가 발표한 OmniVoice는 600+ 언어를 지원하는 제로샷 다국어 TTS 모델. Diffusion LM 아키텍처 기반이며, 짧은 참조 오디오만으로 고품질 음성 복제(voice cloning)가 가능하다.

핵심 정보

항목내용
파이프라인Text-to-Speech
라이선스Apache 2.0
베이스 모델Qwen/Qwen3-0.6B
다운로드340K+
좋아요503
포맷Safetensors
논문arXiv 2604.00688

주요 기능

  • 600+ 언어 지원 — 제로샷 TTS 중 가장 넓은 언어 커버리지
  • 보이스 클로닝 — 짧은 참조 오디오로 SOTA 품질 음성 복제
  • 보이스 디자인 — 성별, 나이, 피치, 방언/억양, 속삭임 등 스피커 속성 제어
  • 미세 제어[laughter] 등 비언어 기호, 병음/음소 기반 발음 교정
  • 빠른 추론 — RTF 0.025 (실시간 대비 40배 빠름)
  • Diffusion LM 아키텍처 — 깔끔하고 확장 가능한 설계

설치

# NVIDIA GPU
pip install torch==2.8.0+cu128 torchaudio==2.8.0+cu128 --extra-index-url https://download.pytorch.org/whl/cu128
 
# Apple Silicon
pip install torch==2.8.0 torchaudio==2.8.0
 
# OmniVoice
pip install omnivoice

사용 예시

from omnivoice import OmniVoice
import torch, torchaudio
 
model = OmniVoice.from_pretrained("k2-fsa/OmniVoice", device_map="cuda:0", dtype=torch.float16)
audio = model.generate(
    text="Hello, this is a test of zero-shot voice cloning.",
    ref_audio="ref.wav",
    ref_text="Transcription of the reference audio.",
)
torchaudio.save("out.wav", audio[0], 24000)  # 24kHz 출력

저자

Han Zhu, Lingxuan Ye, Wei Kang, Zengwei Yao, Liyong Guo, Fangjun Kuang, Zhifeng Han, Weiji Zhuang, Long Lin, Daniel Povey

관련 노트