做 AI 应用的时候,大家都喜欢把 LLM(大语言模型)搞得很大,但在 TTS(文字转语音)这块,往往容易踩坑。

最近有个粉丝在后台问我,说他在捣鼓一个聊天小玩具。大模型用的是 DeepSeek,很顺滑,但到了 TTS 环节就头大了。

他试了一圈市面上的模型:

  • Index TTS 2:效果最强,能克隆音色、还能控制情绪,但这玩意儿资源占用是“怪兽级”的。他租了带 5090 的算力云生成都很慢,更别说自己买显卡了。
  • Qwen3 TTS:效果中规中矩,速度依然不太理想。
  • Moss-nano:速度倒是快起来了,但那股子“AI 味”太重,一听就是机器念稿,很难沉浸。
  • Mimo:免费的在线服务,听起来还行,但情绪控制经常抽风,有时候一句话全是平调,或者标签根本不生效。

接下来的痛点很现实:他想自建一台服务器,预算有限,不打算买 GPU。这就有点尴尬了,因为绝大多数高性能 TTS 模型都是为 GPU 设计的。

手里没显卡,真的就没法玩转高质量的 TTS 了吗?

无 GPU 服务器部署示意图

在没有 GPU 的情况下,依然可以选择高效的 TTS 方案

还真不是。今天我就给大伙整理几条适合纯 CPU 环境、或者低成本部署的“野路子”方案。

方案一:GPT-SoVITS(ONNX 量化版)—— 本地化的性价比之王

如果非要在本地跑,且不能上 GPU,目前的“版本答案”多半是 GPT-SoVITS

这玩意儿在圈子里已经很火了,最大的优点就是效果极好,且开源社区非常活跃。原本它也是吃显卡的,但现在社区已经推出了 ONNX 量化版

ONNX 是什么? 简单说就是把模型转换成一种通用的格式,并用“低精度计算”来压缩体积、提升速度。

在纯 CPU 环境下跑量化版的 GPT-SoVITS,效果会有一定损耗,但依然吊打那些入门级的模型。重点是它支持少样本极速克隆,你丢给它几秒钟的目标音频,它就能模仿出个八九不离十。

适用场景:有少量闲置算力(比如高配 NUC 或旧服务器),对数据隐私要求高,不想把录音上传到云端。

GPT-SoVITS 音色克隆演示

GPT-SoVITS 能够通过少量样本极速克隆音色

方案二:Edge-TTS —— 伪装成本地接口的“羊毛之王”

如果你对“音克隆”没有执念,只是想要一个清晰、自然、多语种的语音,那 Edge-TTS 绝对是目前最香的“羊毛”。

它的原理并不复杂:利用了微软 Edge 浏览器自带的在线朗读功能。通过脚本逆向调用它的接口,你就可以免费获得微软 Azure 认知服务级别的人声。

优点简直不要太多:

  1. 不耗本地算力:它是纯网络请求,CPU 占用为 0,哪怕是树莓派都能跑。
  2. 音质极高:本质上调用的是大厂接口,自然度远超很多本地训练的小模型。
  3. 部署简单:Python 库 edge-tts 一行命令安装,几行代码就能搞成一个 API 服务,无缝嵌入你的项目。

缺点:需要联网,且不支持自定义音色克隆。但在没有 GPU 的前提下,这是最无脑的解决方案。

Edge-TTS Python 库使用示例

Edge-TTS 部署简单,几行代码即可封装成 API

方案三:Sherpa-ONNX —— 嵌入式/低延迟的神器

如果你是想在聊天场景里做 实时流式 TTS(即一边生成一边说,不能有延迟),上面的方案可能还有点不够用。

推荐看看 Sherpa-ONNX 这个项目。它不仅仅支持 TTS,还有 ASR(语音识别),专门针对推理做了大量优化。

它支持很多轻量级的 VITS 模型,并且通过 ONNX Runtime 进行加速。在纯 CPU 上,它可以做到非常低的启动延迟和生成速度。虽然音色的情感丰富度不如 GPT-SoVITS,但在聊天、助手类应用中,那种“秒回”的流畅感反而更重要。

方案四:API 聚合与云服务

如果自己折腾模型太累,或者说不想维护那一大堆依赖库,现在的云服务其实价格并没有想象中那么离谱。

除了大厂昂贵的 API,其实还有一些聚合平台,或者像之前提到的 Fish Audio 等新兴的服务,它们通常价格相对亲民,且提供了极其丰富的预制音色和情绪控制。

对于一个初创的小玩具项目,

总结与建议

回到那位粉丝的问题,如果非要上那台不带 GPU 的服务器,我的建议是分两步走:

  1. MVP 阶段(最小可行性产品):先用 Edge-TTS 搞定逻辑闭环。不花钱,不用愁性能,专心打磨交互体验。
  2. 进阶阶段:如果 Edge-TTS 无法满足个性化需求(比如你需要克隆自己的声音),再考虑在那台服务器上部署 GPT-SoVITS 的 ONNX 版本。只要不做并发量特别大的业务,单核或双核 CPU 应付单路对话生成通常足矣。

做项目就是这样,不要一开始就被“硬件焦虑”劝退。软件算法的优化,往往比堆硬件来得更划算。希望大家的小玩具都能早日发出“好听”的声音!

标签: none

评论已关闭