Voicebox - 오픈소스 보이스 클로닝 스튜디오

ElevenLabs의 무료 오픈소스 대안. 로컬에서 실행되는 보이스 클로닝 스튜디오.

핵심 컨셉

Local-first — 모델과 음성 데이터가 내 컴퓨터에만 저장
완전 프라이버시 — 클라우드 전송 없음
5개 TTS 엔진 — Qwen3-TTS, LuxTTS, Chatterbox Multilingual, Chatterbox Turbo, HumeAI TADA
23개 언어 — 영어, 아랍어, 일본어, 힌디어, 스와힐리어 등

주요 기능

멀티 엔진 보이스 클로닝

엔진	언어	특징
Qwen3-TTS (0.6B / 1.7B)	10	고품질 다국어 클로닝, 전달 지시 가능 (“천천히 말해”, “속삭여”)
LuxTTS	영어	경량 (~1GB VRAM), 48kHz 출력, CPU에서 150x 실시간
Chatterbox Multilingual	23	가장 넓은 언어 커버리지
Chatterbox Turbo	영어	빠른 350M 모델, 감정/사운드 태그 지원
TADA (1B / 3B)	10	HumeAI 모델, 700초+ 일관된 오디오

감정 & Paralinguistic 태그

텍스트 입력에서 /를 눌러 표현 태그 삽입 (Chatterbox Turbo):

[laugh] [chuckle] [gasp] [cough] [sigh] [groan] [sniff] [shush] [clear throat]

포스트 프로세싱 이펙트

Spotify pedalboard 라이브러리 기반 8개 오디오 이펙트:

이펙트	설명
Pitch Shift	±12 반음
Reverb	룸 사이즈, 댐핑, wet/dry 조절
Delay	에코 - 시간, 피드백, 믹스
Chorus / Flanger	모듈레이션
Compressor	다이내믹 레인지 압축
Gain	-40 ~ +40 dB
High-Pass Filter	저주파 제거
Low-Pass Filter	고주파 제거

내장 프리셋: Robotic, Radio, Echo Chamber, Deep Voice

무제한 길이 생성

텍스트 자동 분할 (문장 경계)
크로스페이드로 부드럽게 연결
최대 50,000자
모든 엔진에서 작동

Stories 에디터

멀티 보이스 타임라인 에디터:

멀티 트랙 컴포지션
드래그 앤 드롭
인라인 오디오 트리밍/분할
대화, 팟캐스트, 내러티브 제작

녹음 & 전사

인앱 녹음 + 파형 시각화
시스템 오디오 캡처 (macOS, Windows)
Whisper / Whisper Turbo로 자동 전사

다운로드

플랫폼	다운로드
macOS (Apple Silicon)	DMG
macOS (Intel)	DMG
Windows	MSI
Docker	`docker compose up`

Linux: 소스 빌드 필요 — voicebox.sh/linux-install

GPU 지원

플랫폼	백엔드	비고
macOS (Apple Silicon)	MLX (Metal)	Neural Engine으로 4-5x 빠름
Windows / Linux (NVIDIA)	PyTorch (CUDA)	자동 다운로드
Linux (AMD)	PyTorch (ROCm)	자동 설정
Windows (모든 GPU)	DirectML	범용
Intel Arc	IPEX/XPU	Intel GPU 가속
CPU	-	어디서든 작동 (느림)

API

REST API로 음성 합성 통합:

# 음성 생성
curl -X POST http://localhost:17493/generate \
  -H "Content-Type: application/json" \
  -d '{"text": "Hello world", "profile_id": "abc123", "language": "en"}'
 
# 프로필 목록
curl http://localhost:17493/profiles
 
# 프로필 생성
curl -X POST http://localhost:17493/profiles \
  -H "Content-Type: application/json" \
  -d '{"name": "My Voice", "language": "en"}'

API 문서: http://localhost:17493/docs

기술 스택

레이어	기술
Desktop App	Tauri (Rust)
Frontend	React, TypeScript, Tailwind CSS
Backend	FastAPI (Python)
TTS 엔진	Qwen3-TTS, LuxTTS, Chatterbox, TADA
Effects	Pedalboard (Spotify)
Transcription	Whisper / Whisper Turbo
Inference	MLX / PyTorch
Database	SQLite

로드맵

기능	설명
Real-time Streaming	단어별 실시간 스트리밍
Voice Design	텍스트 설명으로 새 목소리 생성
More Models	XTTS, Bark 등
Plugin Architecture	커스텀 모델/이펙트 확장
Mobile Companion	폰에서 제어

Context Vault

탐색기

Voicebox - 오픈소스 보이스 클로닝 스튜디오

Voicebox - 오픈소스 보이스 클로닝 스튜디오

핵심 컨셉

주요 기능

멀티 엔진 보이스 클로닝

감정 & Paralinguistic 태그

포스트 프로세싱 이펙트

무제한 길이 생성

Stories 에디터

녹음 & 전사

다운로드

GPU 지원

API

기술 스택

로드맵

Sources

그래프 뷰

목차