OmniVoice — 600+ 언어 제로샷 다국어 TTS
k2-fsa(Next-gen Kaldi 팀)가 발표한 OmniVoice는 600+ 언어를 지원하는 제로샷 다국어 TTS 모델. Diffusion LM 아키텍처 기반이며, 짧은 참조 오디오만으로 고품질 음성 복제(voice cloning)가 가능하다.
핵심 정보
| 항목 | 내용 |
|---|---|
| 파이프라인 | Text-to-Speech |
| 라이선스 | Apache 2.0 |
| 베이스 모델 | Qwen/Qwen3-0.6B |
| 다운로드 | 340K+ |
| 좋아요 | 503 |
| 포맷 | Safetensors |
| 논문 | arXiv 2604.00688 |
주요 기능
- 600+ 언어 지원 — 제로샷 TTS 중 가장 넓은 언어 커버리지
- 보이스 클로닝 — 짧은 참조 오디오로 SOTA 품질 음성 복제
- 보이스 디자인 — 성별, 나이, 피치, 방언/억양, 속삭임 등 스피커 속성 제어
- 미세 제어 —
[laughter]등 비언어 기호, 병음/음소 기반 발음 교정 - 빠른 추론 — RTF 0.025 (실시간 대비 40배 빠름)
- Diffusion LM 아키텍처 — 깔끔하고 확장 가능한 설계
설치
# NVIDIA GPU
pip install torch==2.8.0+cu128 torchaudio==2.8.0+cu128 --extra-index-url https://download.pytorch.org/whl/cu128
# Apple Silicon
pip install torch==2.8.0 torchaudio==2.8.0
# OmniVoice
pip install omnivoice사용 예시
from omnivoice import OmniVoice
import torch, torchaudio
model = OmniVoice.from_pretrained("k2-fsa/OmniVoice", device_map="cuda:0", dtype=torch.float16)
audio = model.generate(
text="Hello, this is a test of zero-shot voice cloning.",
ref_audio="ref.wav",
ref_text="Transcription of the reference audio.",
)
torchaudio.save("out.wav", audio[0], 24000) # 24kHz 출력저자
Han Zhu, Lingxuan Ye, Wei Kang, Zengwei Yao, Liyong Guo, Fangjun Kuang, Zhifeng Han, Weiji Zhuang, Long Lin, Daniel Povey
관련 노트
- ollama — 로컬 LLM 실행 환경
- 2026-04-15-gemini-3-1-flash-tts — 자연어 지시 기반 표현 제어형 TTS