Voicebox - 오픈소스 보이스 클로닝 스튜디오

ElevenLabs의 무료 오픈소스 대안. 로컬에서 실행되는 보이스 클로닝 스튜디오.

핵심 컨셉

  • Local-first — 모델과 음성 데이터가 내 컴퓨터에만 저장
  • 완전 프라이버시 — 클라우드 전송 없음
  • 5개 TTS 엔진 — Qwen3-TTS, LuxTTS, Chatterbox Multilingual, Chatterbox Turbo, HumeAI TADA
  • 23개 언어 — 영어, 아랍어, 일본어, 힌디어, 스와힐리어 등

주요 기능

멀티 엔진 보이스 클로닝

엔진언어특징
Qwen3-TTS (0.6B / 1.7B)10고품질 다국어 클로닝, 전달 지시 가능 (“천천히 말해”, “속삭여”)
LuxTTS영어경량 (~1GB VRAM), 48kHz 출력, CPU에서 150x 실시간
Chatterbox Multilingual23가장 넓은 언어 커버리지
Chatterbox Turbo영어빠른 350M 모델, 감정/사운드 태그 지원
TADA (1B / 3B)10HumeAI 모델, 700초+ 일관된 오디오

감정 & Paralinguistic 태그

텍스트 입력에서 /를 눌러 표현 태그 삽입 (Chatterbox Turbo):

[laugh] [chuckle] [gasp] [cough] [sigh] [groan] [sniff] [shush] [clear throat]

포스트 프로세싱 이펙트

Spotify pedalboard 라이브러리 기반 8개 오디오 이펙트:

이펙트설명
Pitch Shift±12 반음
Reverb룸 사이즈, 댐핑, wet/dry 조절
Delay에코 - 시간, 피드백, 믹스
Chorus / Flanger모듈레이션
Compressor다이내믹 레인지 압축
Gain-40 ~ +40 dB
High-Pass Filter저주파 제거
Low-Pass Filter고주파 제거

내장 프리셋: Robotic, Radio, Echo Chamber, Deep Voice

무제한 길이 생성

  • 텍스트 자동 분할 (문장 경계)
  • 크로스페이드로 부드럽게 연결
  • 최대 50,000자
  • 모든 엔진에서 작동

Stories 에디터

멀티 보이스 타임라인 에디터:

  • 멀티 트랙 컴포지션
  • 드래그 앤 드롭
  • 인라인 오디오 트리밍/분할
  • 대화, 팟캐스트, 내러티브 제작

녹음 & 전사

  • 인앱 녹음 + 파형 시각화
  • 시스템 오디오 캡처 (macOS, Windows)
  • Whisper / Whisper Turbo로 자동 전사

다운로드

플랫폼다운로드
macOS (Apple Silicon)DMG
macOS (Intel)DMG
WindowsMSI
Dockerdocker compose up

Linux: 소스 빌드 필요 — voicebox.sh/linux-install


GPU 지원

플랫폼백엔드비고
macOS (Apple Silicon)MLX (Metal)Neural Engine으로 4-5x 빠름
Windows / Linux (NVIDIA)PyTorch (CUDA)자동 다운로드
Linux (AMD)PyTorch (ROCm)자동 설정
Windows (모든 GPU)DirectML범용
Intel ArcIPEX/XPUIntel GPU 가속
CPU-어디서든 작동 (느림)

API

REST API로 음성 합성 통합:

# 음성 생성
curl -X POST http://localhost:17493/generate \
  -H "Content-Type: application/json" \
  -d '{"text": "Hello world", "profile_id": "abc123", "language": "en"}'
 
# 프로필 목록
curl http://localhost:17493/profiles
 
# 프로필 생성
curl -X POST http://localhost:17493/profiles \
  -H "Content-Type: application/json" \
  -d '{"name": "My Voice", "language": "en"}'

API 문서: http://localhost:17493/docs


기술 스택

레이어기술
Desktop AppTauri (Rust)
FrontendReact, TypeScript, Tailwind CSS
BackendFastAPI (Python)
TTS 엔진Qwen3-TTS, LuxTTS, Chatterbox, TADA
EffectsPedalboard (Spotify)
TranscriptionWhisper / Whisper Turbo
InferenceMLX / PyTorch
DatabaseSQLite

로드맵

기능설명
Real-time Streaming단어별 실시간 스트리밍
Voice Design텍스트 설명으로 새 목소리 생성
More ModelsXTTS, Bark 등
Plugin Architecture커스텀 모델/이펙트 확장
Mobile Companion폰에서 제어

Sources