OmniVoice — 600+ 언어 제로샷 다국어 TTS

k2-fsa(Next-gen Kaldi 팀)가 발표한 OmniVoice는 600+ 언어를 지원하는 제로샷 다국어 TTS 모델. Diffusion LM 아키텍처 기반이며, 짧은 참조 오디오만으로 고품질 음성 복제(voice cloning)가 가능하다.

핵심 정보

항목	내용
파이프라인	Text-to-Speech
라이선스	Apache 2.0
베이스 모델	Qwen/Qwen3-0.6B
다운로드	340K+
좋아요	503
포맷	Safetensors
논문	arXiv 2604.00688

주요 기능

600+ 언어 지원 — 제로샷 TTS 중 가장 넓은 언어 커버리지
보이스 클로닝 — 짧은 참조 오디오로 SOTA 품질 음성 복제
보이스 디자인 — 성별, 나이, 피치, 방언/억양, 속삭임 등 스피커 속성 제어
미세 제어 — [laughter] 등 비언어 기호, 병음/음소 기반 발음 교정
빠른 추론 — RTF 0.025 (실시간 대비 40배 빠름)
Diffusion LM 아키텍처 — 깔끔하고 확장 가능한 설계

설치

# NVIDIA GPU
pip install torch==2.8.0+cu128 torchaudio==2.8.0+cu128 --extra-index-url https://download.pytorch.org/whl/cu128
 
# Apple Silicon
pip install torch==2.8.0 torchaudio==2.8.0
 
# OmniVoice
pip install omnivoice

사용 예시

from omnivoice import OmniVoice
import torch, torchaudio
 
model = OmniVoice.from_pretrained("k2-fsa/OmniVoice", device_map="cuda:0", dtype=torch.float16)
audio = model.generate(
    text="Hello, this is a test of zero-shot voice cloning.",
    ref_audio="ref.wav",
    ref_text="Transcription of the reference audio.",
)
torchaudio.save("out.wav", audio[0], 24000)  # 24kHz 출력

저자

Han Zhu, Lingxuan Ye, Wei Kang, Zengwei Yao, Liyong Guo, Fangjun Kuang, Zhifeng Han, Weiji Zhuang, Long Lin, Daniel Povey

LLM Wiki

탐색기

OmniVoice — 600+ 언어 제로샷 다국어 TTS (k2-fsa)

OmniVoice — 600+ 언어 제로샷 다국어 TTS

핵심 정보

주요 기능

설치

사용 예시

저자

관련 노트

그래프 뷰

목차

백링크