VibeVoice - Microsoft의 오픈소스 음성 AI 프레임워크

Microsoft의 차세대 음성 AI 모델 패밀리 - TTS와 ASR을 모두 포함하는 오픈소스 연구 프레임워크

핵심 혁신

초저 프레임률 연속 음성 토크나이저: 7.5Hz에서 작동하는 Acoustic/Semantic 토크나이저

  • 오디오 충실도 유지
  • 긴 시퀀스 처리 시 계산 효율성 크게 향상
  • Next-token diffusion 프레임워크 활용
  • LLM이 텍스트 컨텍스트와 대화 흐름 이해
  • Diffusion head가 고충실도 음성 생성

모델 패밀리

1. VibeVoice-ASR (7B)

자동 음성 인식 (Speech-to-Text)

  • 60분 단일 패스 처리: 최대 60분 연속 오디오를 64K 토큰 내에서 처리
  • 화자 구분 및 타임스탬프: Who, When, What 구조화된 출력
  • 커스텀 핫워즈: 도메인 특화 용어 정확도 향상
  • 50+ 언어 지원: 다중언어 가능
  • vLLM 추론 지원: 빠른 추론
  • Hugging Face | Playground

2. VibeVoice-TTS (1.5B)

텍스트-투-스피치

  • 90분 장문 생성: 단일 패스로 최대 90분 합성
  • 다중 화자 지원: 최대 4명의 화자, 자연스러운 턴테이킹
  • 표현력 있는 음성: 감정적 뉘앙스와 대화 역학
  • 다국어 지원: 영어, 중국어 등
  • Hugging Face
  • TTS v1.5B는 현재 비활성화 (연구 목적, 추가 개발 필요)

3. VibeVoice-Realtime (0.5B)

실시간 TTS

  • 경량화: 0.5B 파라미터 (배포 친화적)
  • 실시간 지연: ~300ms 첫 소리 출력
  • 스트리밍 텍스트 입력: 점진적 텍스트 처리 가능
  • 10분 장문: 견고한 장문 음성 생성
  • 실험적 화자: 9개 언어, 11가지 영어 스타일 음성
  • Colab 데모

기술 사양

모델크기용도최대 길이화자 수상태
VibeVoice-ASR7BSTT60분자동 구분✅ 활성
VibeVoice-TTS1.5BTTS90분4명⚠️ 비활성
VibeVoice-Realtime0.5B실시간 TTS~10분스타일 음성✅ 활성

통합 및 사용

Hugging Face Transformers (2026-03-06)

VibeVoice-ASR이 Transformers v5.3.0에 포함됨:

from transformers import pipeline
asr = pipeline("automatic-speech-recognition", model="microsoft/VibeVoice-ASR")

vLLM 지원

GPU 배포를 위한 vLLM 추론 백엔드 지원

파인튜닝

  • ASR 파인튜닝 코드 공개: finetuning-asr/
  • 커스텀 도메인 모델 학습 가능

연구 및 책임

연구 목적: VibeVoice는 연구 및 개발 목적으로만 제공

  • 실/현업 사용 권장하지 않음
  • 추가 테스트 및 개발 필요

윤리적 고려:

  • 딥페이크 및 허위 정보 생성 가능성 인지
  • AI 생성 콘텐츠 공개시 공개 의무화 권고
  • 법적 준수, 책임 있는 사용 강조

프로젝트 역사

  • 2025-08-25: VibeVoice-TTS 오픈소스 (90분 장문 TTS)
  • 2025-09-05: 연구 프레임워크 성격 명시, TTS 코드 제거 (책임 있는 사용 원칙)
  • 2025-12-03: VibeVoice-Realtime-0.5B 오픈소스
  • 2025-12-16: 실험적 화자 추가 (9개 언어, 11가지 영어 스타일)
  • 2026-01-21: VibeVoice-ASR 오픈소스 (60분 장문 ASR)
  • 2026-03-06: Transformers v5.3.0에 통합

관련 자료

사용 사례

  • 팟캐스트 및 장문 인터뷰 자동 텍스트 변환
  • 다국어 회의 녹음 및 분석
  • 장문 오디오북/콘텐츠 생성
  • 실시간 스트리밍 음성 합성
  • 연구 및 프로토타이핑

참고사항

  • VibeVoice-TTS 1.5B 모델은 현재 Hugging Face에서 비활성화 상태
  • 실시간 모델(0.5B)만 Colab 데모 가능
  • ASR을 통한 Transformers 통합으로 프로젝트 생태계 확장
  • 모델이 기본 모델(Qwen2.5 1.5b)의 편향/오류를 상속할 수 있음

관련 노트

  • kanana-o-api - 카카오의 옴니모달 API (한국어 ASR/TTS) - 한국어 최적화 성능 비교
  • 90-ai-tools-that-matter - 2026년 주목할 AI 도구 목록
  • moc-ai-agents - AI 에이전트 관련 노트 이정표