Voicebox - 오픈소스 보이스 클로닝 스튜디오
ElevenLabs의 무료 오픈소스 대안. 로컬에서 실행되는 보이스 클로닝 스튜디오.
핵심 컨셉
- Local-first — 모델과 음성 데이터가 내 컴퓨터에만 저장
- 완전 프라이버시 — 클라우드 전송 없음
- 5개 TTS 엔진 — Qwen3-TTS, LuxTTS, Chatterbox Multilingual, Chatterbox Turbo, HumeAI TADA
- 23개 언어 — 영어, 아랍어, 일본어, 힌디어, 스와힐리어 등
주요 기능
멀티 엔진 보이스 클로닝
| 엔진 | 언어 | 특징 |
|---|---|---|
| Qwen3-TTS (0.6B / 1.7B) | 10 | 고품질 다국어 클로닝, 전달 지시 가능 (“천천히 말해”, “속삭여”) |
| LuxTTS | 영어 | 경량 (~1GB VRAM), 48kHz 출력, CPU에서 150x 실시간 |
| Chatterbox Multilingual | 23 | 가장 넓은 언어 커버리지 |
| Chatterbox Turbo | 영어 | 빠른 350M 모델, 감정/사운드 태그 지원 |
| TADA (1B / 3B) | 10 | HumeAI 모델, 700초+ 일관된 오디오 |
감정 & Paralinguistic 태그
텍스트 입력에서 /를 눌러 표현 태그 삽입 (Chatterbox Turbo):
[laugh] [chuckle] [gasp] [cough] [sigh] [groan] [sniff] [shush] [clear throat]
포스트 프로세싱 이펙트
Spotify pedalboard 라이브러리 기반 8개 오디오 이펙트:
| 이펙트 | 설명 |
|---|---|
| Pitch Shift | ±12 반음 |
| Reverb | 룸 사이즈, 댐핑, wet/dry 조절 |
| Delay | 에코 - 시간, 피드백, 믹스 |
| Chorus / Flanger | 모듈레이션 |
| Compressor | 다이내믹 레인지 압축 |
| Gain | -40 ~ +40 dB |
| High-Pass Filter | 저주파 제거 |
| Low-Pass Filter | 고주파 제거 |
내장 프리셋: Robotic, Radio, Echo Chamber, Deep Voice
무제한 길이 생성
- 텍스트 자동 분할 (문장 경계)
- 크로스페이드로 부드럽게 연결
- 최대 50,000자
- 모든 엔진에서 작동
Stories 에디터
멀티 보이스 타임라인 에디터:
- 멀티 트랙 컴포지션
- 드래그 앤 드롭
- 인라인 오디오 트리밍/분할
- 대화, 팟캐스트, 내러티브 제작
녹음 & 전사
- 인앱 녹음 + 파형 시각화
- 시스템 오디오 캡처 (macOS, Windows)
- Whisper / Whisper Turbo로 자동 전사
다운로드
Linux: 소스 빌드 필요 — voicebox.sh/linux-install
GPU 지원
| 플랫폼 | 백엔드 | 비고 |
|---|---|---|
| macOS (Apple Silicon) | MLX (Metal) | Neural Engine으로 4-5x 빠름 |
| Windows / Linux (NVIDIA) | PyTorch (CUDA) | 자동 다운로드 |
| Linux (AMD) | PyTorch (ROCm) | 자동 설정 |
| Windows (모든 GPU) | DirectML | 범용 |
| Intel Arc | IPEX/XPU | Intel GPU 가속 |
| CPU | - | 어디서든 작동 (느림) |
API
REST API로 음성 합성 통합:
# 음성 생성
curl -X POST http://localhost:17493/generate \
-H "Content-Type: application/json" \
-d '{"text": "Hello world", "profile_id": "abc123", "language": "en"}'
# 프로필 목록
curl http://localhost:17493/profiles
# 프로필 생성
curl -X POST http://localhost:17493/profiles \
-H "Content-Type: application/json" \
-d '{"name": "My Voice", "language": "en"}'API 문서: http://localhost:17493/docs
기술 스택
| 레이어 | 기술 |
|---|---|
| Desktop App | Tauri (Rust) |
| Frontend | React, TypeScript, Tailwind CSS |
| Backend | FastAPI (Python) |
| TTS 엔진 | Qwen3-TTS, LuxTTS, Chatterbox, TADA |
| Effects | Pedalboard (Spotify) |
| Transcription | Whisper / Whisper Turbo |
| Inference | MLX / PyTorch |
| Database | SQLite |
로드맵
| 기능 | 설명 |
|---|---|
| Real-time Streaming | 단어별 실시간 스트리밍 |
| Voice Design | 텍스트 설명으로 새 목소리 생성 |
| More Models | XTTS, Bark 등 |
| Plugin Architecture | 커스텀 모델/이펙트 확장 |
| Mobile Companion | 폰에서 제어 |