VibeVoice — Microsoft 오픈소스 프론티어 음성 AI

TTS + ASR 통합 음성 AI 모델 패밀리. 7.5 Hz 연속 음성 토크나이저, next-token diffusion, 60분 장문 오디오 원패스 처리.

개요

VibeVoice는 Microsoft의 오픈소스 프론티어 음성 AI 모델 패밀리로, TTS(Text-to-Speech)와 ASR(Automatic Speech Recognition) 모두 지원한다.

핵심 이노베이션:

  • 7.5 Hz 연속 음성 토크나이저 (Acoustic + Semantic) — 초저 프레임레이트로 음성 충실도를 유지하면서 계산 효율 극대화
  • Next-token Diffusion 프레임워크 — LLM이 텍스트 맥락/대화 흐름을 이해하고 diffusion head가 고충실도 음향 생성
  • 60분 장문 오디오 원패스 처리 (ASR)

모델 목록

모델파라미터용도링크
VibeVoice-ASR-7B7B장문 음성→텍스트 (60분)HF
VibeVoice-TTS-1.5B1.5BTTS (90분 장문, 4인说话了)Disabled
VibeVoice-Realtime-0.5B0.5B실시간 TTS 스트리밍HF

주요 기능

ASR (Automatic Speech Recognition)

  • 60분 장문 오디오 원패스 처리 — 단일 호출로 전체 전사
  • 구조화된 전사 — Who(화자), When(타임스탬프), What(내용)
  • 50+ 언어 네이티브 지원 (멀티링구얼)
  • Transformers 라이브러리 통합 (2026-03-06 릴리스)
  • vLLM 추론 지원 (빠른 추론)
  • 파인튜닝 코드 공개 (finetuning-asr/README.md)

Realtime TTS

  • 스트리밍 텍스트 입력 지원
  • 9개 언어 실험적 음성 (DE, FR, IT, JP, KR, NL, PL, PT, ES)
  • 11개 영어 스타일 음성
  • Google Colab 데모 제공

History

날짜이벤트
2025-08-25VibeVoice-TTS 오픈소스 공개 (ICLR 2026 Oral)
2025-09-05책임ある利用 문제로 TTS 코드 제거
2025-12-03VibeVoice-Realtime-0.5B 공개
2025-12-16다국어 + 영어 스타일 음성 추가
2026-01-21VibeVoice-ASR 공개 (60분 장문 전사)
2026-03-06Transformers 라이브러리 통합

Technical Details

  • 프레임워크: Python, PyTorch
  • 라이선스: MIT
  • 라이브러리: Transformers (Hugging Face), vLLM
  • ASR 테크니컬 리포트: arxiv.org/pdf/2601.18184

관련 개념

출처