VibeVoice - Microsoft의 오픈소스 음성 AI 프레임워크
Microsoft의 차세대 음성 AI 모델 패밀리 - TTS와 ASR을 모두 포함하는 오픈소스 연구 프레임워크
핵심 혁신
초저 프레임률 연속 음성 토크나이저: 7.5Hz에서 작동하는 Acoustic/Semantic 토크나이저
- 오디오 충실도 유지
- 긴 시퀀스 처리 시 계산 효율성 크게 향상
- Next-token diffusion 프레임워크 활용
- LLM이 텍스트 컨텍스트와 대화 흐름 이해
- Diffusion head가 고충실도 음성 생성
모델 패밀리
1. VibeVoice-ASR (7B)
자동 음성 인식 (Speech-to-Text)
- 60분 단일 패스 처리: 최대 60분 연속 오디오를 64K 토큰 내에서 처리
- 화자 구분 및 타임스탬프: Who, When, What 구조화된 출력
- 커스텀 핫워즈: 도메인 특화 용어 정확도 향상
- 50+ 언어 지원: 다중언어 가능
- vLLM 추론 지원: 빠른 추론
- Hugging Face | Playground
2. VibeVoice-TTS (1.5B)
텍스트-투-스피치
- 90분 장문 생성: 단일 패스로 최대 90분 합성
- 다중 화자 지원: 최대 4명의 화자, 자연스러운 턴테이킹
- 표현력 있는 음성: 감정적 뉘앙스와 대화 역학
- 다국어 지원: 영어, 중국어 등
- Hugging Face
- TTS v1.5B는 현재 비활성화 (연구 목적, 추가 개발 필요)
3. VibeVoice-Realtime (0.5B)
실시간 TTS
- 경량화: 0.5B 파라미터 (배포 친화적)
- 실시간 지연: ~300ms 첫 소리 출력
- 스트리밍 텍스트 입력: 점진적 텍스트 처리 가능
- 10분 장문: 견고한 장문 음성 생성
- 실험적 화자: 9개 언어, 11가지 영어 스타일 음성
- Colab 데모
기술 사양
| 모델 | 크기 | 용도 | 최대 길이 | 화자 수 | 상태 |
|---|---|---|---|---|---|
| VibeVoice-ASR | 7B | STT | 60분 | 자동 구분 | ✅ 활성 |
| VibeVoice-TTS | 1.5B | TTS | 90분 | 4명 | ⚠️ 비활성 |
| VibeVoice-Realtime | 0.5B | 실시간 TTS | ~10분 | 스타일 음성 | ✅ 활성 |
통합 및 사용
Hugging Face Transformers (2026-03-06)
VibeVoice-ASR이 Transformers v5.3.0에 포함됨:
from transformers import pipeline
asr = pipeline("automatic-speech-recognition", model="microsoft/VibeVoice-ASR")vLLM 지원
GPU 배포를 위한 vLLM 추론 백엔드 지원
파인튜닝
- ASR 파인튜닝 코드 공개:
finetuning-asr/ - 커스텀 도메인 모델 학습 가능
연구 및 책임
연구 목적: VibeVoice는 연구 및 개발 목적으로만 제공
- 실/현업 사용 권장하지 않음
- 추가 테스트 및 개발 필요
윤리적 고려:
- 딥페이크 및 허위 정보 생성 가능성 인지
- AI 생성 콘텐츠 공개시 공개 의무화 권고
- 법적 준수, 책임 있는 사용 강조
프로젝트 역사
- 2025-08-25: VibeVoice-TTS 오픈소스 (90분 장문 TTS)
- 2025-09-05: 연구 프레임워크 성격 명시, TTS 코드 제거 (책임 있는 사용 원칙)
- 2025-12-03: VibeVoice-Realtime-0.5B 오픈소스
- 2025-12-16: 실험적 화자 추가 (9개 언어, 11가지 영어 스타일)
- 2026-01-21: VibeVoice-ASR 오픈소스 (60분 장문 ASR)
- 2026-03-06: Transformers v5.3.0에 통합
관련 자료
사용 사례
- 팟캐스트 및 장문 인터뷰 자동 텍스트 변환
- 다국어 회의 녹음 및 분석
- 장문 오디오북/콘텐츠 생성
- 실시간 스트리밍 음성 합성
- 연구 및 프로토타이핑
참고사항
- VibeVoice-TTS 1.5B 모델은 현재 Hugging Face에서 비활성화 상태
- 실시간 모델(0.5B)만 Colab 데모 가능
- ASR을 통한 Transformers 통합으로 프로젝트 생태계 확장
- 모델이 기본 모델(Qwen2.5 1.5b)의 편향/오류를 상속할 수 있음
관련 노트
- kanana-o-api - 카카오의 옴니모달 API (한국어 ASR/TTS) - 한국어 최적화 성능 비교
- 90-ai-tools-that-matter - 2026년 주목할 AI 도구 목록
- moc-ai-agents - AI 에이전트 관련 노트 이정표