VibeVoice — Microsoft 오픈소스 프론티어 음성 AI

TTS + ASR 통합 음성 AI 모델 패밀리. 7.5 Hz 연속 음성 토크나이저, next-token diffusion, 60분 장문 오디오 원패스 처리.

개요

VibeVoice는 Microsoft의 오픈소스 프론티어 음성 AI 모델 패밀리로, TTS(Text-to-Speech)와 ASR(Automatic Speech Recognition) 모두 지원한다.

핵심 이노베이션:

7.5 Hz 연속 음성 토크나이저 (Acoustic + Semantic) — 초저 프레임레이트로 음성 충실도를 유지하면서 계산 효율 극대화
Next-token Diffusion 프레임워크 — LLM이 텍스트 맥락/대화 흐름을 이해하고 diffusion head가 고충실도 음향 생성
60분 장문 오디오 원패스 처리 (ASR)

날짜	이벤트
2025-08-25	VibeVoice-TTS 오픈소스 공개 (ICLR 2026 Oral)
2025-09-05	책임ある利用 문제로 TTS 코드 제거
2025-12-03	VibeVoice-Realtime-0.5B 공개
2025-12-16	다국어 + 영어 스타일 음성 추가
2026-01-21	VibeVoice-ASR 공개 (60분 장문 전사)
2026-03-06	Transformers 라이브러리 통합