Voicebox

Jam Pine이 개발한 음성 합성(Voice Cloning) 모델. 텍스트를 입력하면 해당 목소리로 자연스러운 음성을 생성함.

개요

Voicebox는 텍스트에서 음성으로의 변환(Text-to-Speech, TTS)을 위한 딥러닝 모델입니다. 사용자가 원하는 화자의 목소리를 학습시켜, 임의의 텍스트를 그 목소리로 합성하는 것이 핵심 기능입니다.

git clone https://github.com/jamiepine/voicebox.git
cd voicebox
pip install -r requirements.txt

사용 예시:

# 목표 목소리 학습
voicebox.train(target_voice="sample.wav")
 
# 음성 합성
output = voicebox.synthesize("안녕하세요, 반갑습니다.")