voicebox
学而不思则惘,思而不学则殆。——孔子
Voicebox:一个把“声音”当成作品来对待的开源合成工作室
如果你把常见的 TTS 工具想象成一台“能说话的打印机”,那 Voicebox 更像一间真正的录音棚:
它不急着把字念出来,它更在乎你的声音作品能不能像人一样呼吸、停顿、带情绪、能剪辑、能叠轨、能做后期、还能被你拿去做应用。
Voicebox 的自我介绍很坦荡:
The open-source voice synthesis studio.
Clone voices. Generate speech. Apply effects. Build voice-powered apps.
All running locally on your machine.
它像一个有点骄傲的“本地派”制作人:
“我可以很强,但我更想把一切都留在你自己的机器里——模型在你这,声音也在你这。”
它是谁:本地优先的声音克隆工作室(开源版 ElevenLabs 方向)
在 README 里,Voicebox 把自己定义得非常明确:它是一个 local-first voice cloning studio,是一个 免费、开源、面向工作流的声音合成工具,目标是成为 ElevenLabs 的开源替代。
它给自己画的画像也很“工作室”:
- 用几秒音频就能 克隆声音
- 用多个引擎在多语言里 生成语音
- 生成后还能 加效果(像做混音一样)
- 还能把多个角色、多条轨道放进一个 时间线编辑器 里排戏
- 你还可以把它当成一个 API-first 的后端,直接接入自己的产品
最重要的一句是:
All running locally on your machine.
它像一个很懂你焦虑的伙伴:
“你怕隐私、怕上传、怕订阅、怕配额、怕云端抽风?没关系,我把舞台搬到你电脑上。”
它的性格:隐私狂 + 工程派 + 工作流控
Voicebox 在 README 里列了一串非常有“人格”的能力点,我把它们翻译成它的性格标签:
1)“我不出门”——完全本地隐私
- Complete privacy:模型和声音数据都留在你的机器上
Voicebox 像个把门锁换成指纹+虹膜的声音管家:
“你把素材交给我,不会离开本地。”
2)“我不是单引擎偏科生”——5 个 TTS 引擎,随你切换
它内置/支持 5 个引擎,而且每次生成都可以切换:
- Qwen3-TTS
- LuxTTS
- Chatterbox Multilingual
- Chatterbox Turbo
- HumeAI TADA
它像一个有五位配音演员在你棚里待命的导演:
“这段要稳重?那段要轻快?这段要多语言?这段要很快?你喊一声,我换人。”
3)“我会多国语言”——23 ��语言
从英语到阿拉伯语、日语、印地语、斯瓦希里语……Voicebox 把语言覆盖当成核心能力之一。
它不是“只会念英文稿”的主播,而是能在多语之间穿梭的旅行者。
4)“我有情绪工具箱”——拟声、气口、表情标签
Voicebox 在 README 里提到一个很抓人的点:
Expressive speech — paralinguistic tags(尤其在 Chatterbox Turbo 里)
你甚至可以在文本里插入这种“人味”的标签:
[laugh][chuckle][gasp][cough][sigh][groan][sniff][shush][clear throat]
它像一个很会演戏的配音演员:
“你别只给我台词,把动作也写上——我会在声音里演出来。”
5)“我不止能生成,我还能后期”——音频效果器(Spotify pedalboard)
Voicebox 不把“生成”当终点,它把生成当素材。
它支持一整套后期效果,README 里明确写了:8 audio effects powered by Spotify’s pedalboard library。
效果包括(按 README 列表):
- Pitch Shift(升降调,最多 12 个半音)
- Reverb(混响)
- Delay��延迟回声)
- Chorus / Flanger(合唱/镶边)
- Compressor(压缩)
- Gain(增益 -40 到 +40 dB)
- High-Pass Filter(高通)
- Low-Pass Filter(低通)
并且自带 4 个 preset:Robotic / Radio / Echo Chamber / Deep Voice,也支持自定义 preset,还能给 profile 设默认效果。
它的口吻就像一个混音师:
“先生成,再塑形。你的声音不是输出,是原材料。”
6)“我不怕长稿”——无限长度(自动分段 + 交叉淡化)
Voicebox 支持非常长的文本:README 写了 最大 50,000 字符,并且会:
- 按句子边界自动切段
- 每段独立生成
- 最后 crossfade 拼接
还提供可调参数:
- auto-chunking limit:100–5,000 chars
- crossfade:0–200ms
- splitting 会尊重缩写、CJK 标点、以及
[tags]
它像一个耐心很好的朗读者:
“文章长?没关系,我会自己分段换气,把章节一口气讲完。”
7)“我有编排能力”——Stories editor,多轨时间线
Voicebox 有一个 Stories editor(多轨时间线),适合做:
- 对话
- 播客
- 叙事项目
它更像一个把声音当成“工程项目”的工作台:
“你不是在做一条音频,你在做一个作品。”
8)“我天生是服务端”——API-first(REST API)
README 里明确写了:API-first — REST API for integrating voice synthesis into your own projects。
这句话很关键:Voicebox 不只是“桌面玩具”,它也能成为你产品的语音生成���础设施。
它像一个很愿意被集成的工程同事:
“你要接到你自己的应用里?来,走 REST。”
9)“我讨厌 Electron 的重量”——Tauri(Rust)带来的原生感
README 里也写得很直接:
Native performance — built with Tauri (Rust), not Electron
它像一个对性能有洁癖的前端:
“我不是那种拖着 Chromium 到处跑的家伙。”
10)“我到处都能跑”——跨平台与硬件适配
README 把运行范围写得很豪华:
- macOS(MLX/Metal)
- Windows(CUDA)
- Linux
- AMD ROCm
- Intel Arc
- Docker
这让它像一个会自己换鞋的巡演乐手:
“你在哪个平台搭舞台,我都能上台。”
下载:桌面版开箱即用,Docker 一句起服务
README 里有 Download 段落,列了:
- macOS(Apple Silicon)DMG
- macOS(Intel)DMG
- Windows MSI
- Docker:
docker compose up - Linux:暂时没有可靠的预编译,建议从源码构建
Voicebox 很像一个做事利索的发行经理:
“桌面用户直接下载,服务端用户走 Docker,Linux 用户我也不放弃,但你得自己编译一下。”
快速启动:Docker 模式(把它当成一台带 Web UI 的语音服务器)
Voicebox 的文档里提供了 Docker 快速启动,而且描述得很清楚:
Run Voicebox as a headless server with a web UI using Docker。(docs.voicebox.sh)
它特别适合:
- 无桌面环境的服务器
- 共享 GPU 机器
- 自托管部署
Quick Start
1 | git clone https://github.com/jamiepine/voicebox.git |
启动后直接在浏览器打开:
1 | http://localhost:17493 |
而且它强调:完整的 Voicebox UI 是由后端直接服务出来的——你不是只跑了 API,而是把整套工作室搬上了服务器。(docs.voicebox.sh)
它的状态像个很会安排舞台的后勤:
“你只要把我拉起来,我自己会把 UI、后端、依赖、模型环境都组织好。”
远程模式:把重活交给 GPU 服务器,把界面留在本地
Voicebox 还有一个很“现代工作流”的能力:Remote Mode。
它的设定非常清晰:
桌面 app 在本地只负责 UI;后端在远程 GPU 机器上负责模型、API、生成。两者用 HTTP 通信。(docs.voicebox.sh)
使用场景也很直白:
- 本地没 GPU
- 想更快生成
- 多人共享一台强机��
- 笔记本省电降温
Voicebox 像一个很会分工的制作人:
“你坐在笔记本前写剧本就行,真正耗算力的部分,我去机房给你扛。”
“我为什么需要它”:因为它把语音合成从“功能”升级成“工作流”
很多人第一次做 TTS,会把目标定在���能发声”。
Voicebox 则把目标定在:
- 能克隆
- 能多引擎对比
- 能加效果
- 能做长文本
- 能做多轨项目
- 能做 API
- 还能跑在你自己的机器上
它更像一个认真做内容的人,而不是做 demo 的人。
它不只说“我可以生成语音”,它说:
Clone voices. Generate speech. Apply effects. Build voice-powered apps.
All running locally on your machine. (github.com)
读到这里,Voicebox 这个角色会从工具变成伙伴——
一个随时待命、能演、能剪、能混、还能帮你把语音能力接入产品的“开源声音工作室”。
Voicebox is a local-first voice cloning studio — a free and open-source alternative to ElevenLabs.
它让声音生成不再只是“点一下出音频”,而是变成一条完整的创作流水线:从声音身份、表达、后期到编排,再到 API 集成,全都在你自己的机器里完成。(github.com)
