VibeVoice - Microsoft의 오픈소스 음성 AI 프레임워크

Microsoft의 차세대 음성 AI 모델 패밀리 - TTS와 ASR을 모두 포함하는 오픈소스 연구 프레임워크

핵심 혁신

초저 프레임률 연속 음성 토크나이저: 7.5Hz에서 작동하는 Acoustic/Semantic 토크나이저

오디오 충실도 유지
긴 시퀀스 처리 시 계산 효율성 크게 향상
Next-token diffusion 프레임워크 활용
LLM이 텍스트 컨텍스트와 대화 흐름 이해
Diffusion head가 고충실도 음성 생성

모델 패밀리

1. VibeVoice-ASR (7B)

자동 음성 인식 (Speech-to-Text)

60분 단일 패스 처리: 최대 60분 연속 오디오를 64K 토큰 내에서 처리
화자 구분 및 타임스탬프: Who, When, What 구조화된 출력
커스텀 핫워즈: 도메인 특화 용어 정확도 향상
50+ 언어 지원: 다중언어 가능
vLLM 추론 지원: 빠른 추론
Hugging Face | Playground

2. VibeVoice-TTS (1.5B)

텍스트-투-스피치

90분 장문 생성: 단일 패스로 최대 90분 합성
다중 화자 지원: 최대 4명의 화자, 자연스러운 턴테이킹
표현력 있는 음성: 감정적 뉘앙스와 대화 역학
다국어 지원: 영어, 중국어 등
Hugging Face
TTS v1.5B는 현재 비활성화 (연구 목적, 추가 개발 필요)

3. VibeVoice-Realtime (0.5B)

실시간 TTS

경량화: 0.5B 파라미터 (배포 친화적)
실시간 지연: ~300ms 첫 소리 출력
스트리밍 텍스트 입력: 점진적 텍스트 처리 가능
10분 장문: 견고한 장문 음성 생성
실험적 화자: 9개 언어, 11가지 영어 스타일 음성
Colab 데모

기술 사양

모델	크기	용도	최대 길이	화자 수	상태
VibeVoice-ASR	7B	STT	60분	자동 구분	✅ 활성
VibeVoice-TTS	1.5B	TTS	90분	4명	⚠️ 비활성
VibeVoice-Realtime	0.5B	실시간 TTS	~10분	스타일 음성	✅ 활성

통합 및 사용

Hugging Face Transformers (2026-03-06)

VibeVoice-ASR이 Transformers v5.3.0에 포함됨:

from transformers import pipeline
asr = pipeline("automatic-speech-recognition", model="microsoft/VibeVoice-ASR")

vLLM 지원

GPU 배포를 위한 vLLM 추론 백엔드 지원

파인튜닝

ASR 파인튜닝 코드 공개: finetuning-asr/
커스텀 도메인 모델 학습 가능

연구 및 책임

연구 목적: VibeVoice는 연구 및 개발 목적으로만 제공

실/현업 사용 권장하지 않음
추가 테스트 및 개발 필요

윤리적 고려:

딥페이크 및 허위 정보 생성 가능성 인지
AI 생성 콘텐츠 공개시 공개 의무화 권고
법적 준수, 책임 있는 사용 강조

프로젝트 역사

2025-08-25: VibeVoice-TTS 오픈소스 (90분 장문 TTS)
2025-09-05: 연구 프레임워크 성격 명시, TTS 코드 제거 (책임 있는 사용 원칙)
2025-12-03: VibeVoice-Realtime-0.5B 오픈소스
2025-12-16: 실험적 화자 추가 (9개 언어, 11가지 영어 스타일)
2026-01-21: VibeVoice-ASR 오픈소스 (60분 장문 ASR)
2026-03-06: Transformers v5.3.0에 통합

사용 사례

팟캐스트 및 장문 인터뷰 자동 텍스트 변환
다국어 회의 녹음 및 분석
장문 오디오북/콘텐츠 생성
실시간 스트리밍 음성 합성
연구 및 프로토타이핑

참고사항

VibeVoice-TTS 1.5B 모델은 현재 Hugging Face에서 비활성화 상태
실시간 모델(0.5B)만 Colab 데모 가능
ASR을 통한 Transformers 통합으로 프로젝트 생태계 확장
모델이 기본 모델(Qwen2.5 1.5b)의 편향/오류를 상속할 수 있음

Context Vault

탐색기

VibeVoice - Microsoft의 오픈소스 음성 AI 프레임워크

VibeVoice - Microsoft의 오픈소스 음성 AI 프레임워크

핵심 혁신

모델 패밀리

1. VibeVoice-ASR (7B)

2. VibeVoice-TTS (1.5B)

3. VibeVoice-Realtime (0.5B)

기술 사양

통합 및 사용

Hugging Face Transformers (2026-03-06)

vLLM 지원

파인튜닝

연구 및 책임

프로젝트 역사

관련 자료

사용 사례

참고사항

관련 노트

그래프 뷰

목차