VibeVoice — Microsoft 오픈소스 프론티어 음성 AI
TTS + ASR 통합 음성 AI 모델 패밀리. 7.5 Hz 연속 음성 토크나이저, next-token diffusion, 60분 장문 오디오 원패스 처리.
개요
VibeVoice는 Microsoft의 오픈소스 프론티어 음성 AI 모델 패밀리로, TTS(Text-to-Speech)와 ASR(Automatic Speech Recognition) 모두 지원한다.
핵심 이노베이션:
- 7.5 Hz 연속 음성 토크나이저 (Acoustic + Semantic) — 초저 프레임레이트로 음성 충실도를 유지하면서 계산 효율 극대화
- Next-token Diffusion 프레임워크 — LLM이 텍스트 맥락/대화 흐름을 이해하고 diffusion head가 고충실도 음향 생성
- 60분 장문 오디오 원패스 처리 (ASR)
모델 목록
| 모델 | 파라미터 | 용도 | 링크 |
|---|---|---|---|
| VibeVoice-ASR-7B | 7B | 장문 음성→텍스트 (60분) | HF |
| VibeVoice-TTS-1.5B | 1.5B | TTS (90분 장문, 4인说话了) | Disabled |
| VibeVoice-Realtime-0.5B | 0.5B | 실시간 TTS 스트리밍 | HF |
주요 기능
ASR (Automatic Speech Recognition)
- 60분 장문 오디오 원패스 처리 — 단일 호출로 전체 전사
- 구조화된 전사 — Who(화자), When(타임스탬프), What(내용)
- 50+ 언어 네이티브 지원 (멀티링구얼)
- Transformers 라이브러리 통합 (2026-03-06 릴리스)
- vLLM 추론 지원 (빠른 추론)
- 파인튜닝 코드 공개 (finetuning-asr/README.md)
Realtime TTS
- 스트리밍 텍스트 입력 지원
- 9개 언어 실험적 음성 (DE, FR, IT, JP, KR, NL, PL, PT, ES)
- 11개 영어 스타일 음성
- Google Colab 데모 제공
History
| 날짜 | 이벤트 |
|---|---|
| 2025-08-25 | VibeVoice-TTS 오픈소스 공개 (ICLR 2026 Oral) |
| 2025-09-05 | 책임ある利用 문제로 TTS 코드 제거 |
| 2025-12-03 | VibeVoice-Realtime-0.5B 공개 |
| 2025-12-16 | 다국어 + 영어 스타일 음성 추가 |
| 2026-01-21 | VibeVoice-ASR 공개 (60분 장문 전사) |
| 2026-03-06 | Transformers 라이브러리 통합 |
Technical Details
- 프레임워크: Python, PyTorch
- 라이선스: MIT
- 라이브러리: Transformers (Hugging Face), vLLM
- ASR 테크니컬 리포트: arxiv.org/pdf/2601.18184
관련 개념
- 2026-03-27-vibevoice — 기존 노트 (TTS 중심)
- 2026-04-12-omnivoice-multilingual-tts — OmniVoice (600+ 언어 제로샷 TTS)
- 2026-04-04-apple-speech-api-whisper-alternative — Apple Speech API (한국어 STT 대안)