自己动手撸了一个数字人：拒绝割韭菜，开源实现全流程

最近想搞点视频创作，但社恐属性发作，实在不想真人出镜。于是把目光投向了“数字人”和“实时语音驱动”技术。逛了一圈市面上的软件，坑是真不少：要么功能阉割严重，要么订阅价格感人，甚至有些就是个套壳，底层用的全是开源项目。

数字人项目演示视频封面

博主开源的数字人项目演示效果

花了大概一个月时间，我干脆自己动手，把市面上比较好的开源模型整合了一下，做了一个从“听得见”到“看得见”全流程的数字人项目。今天就来把这个东西分享给大家，纯开源，无套路，支持多种硬件平台部署，希望能帮想入坑视频制作的朋友省点银子。

为什么选择自己造轮子？

目前的数字人SaaS服务，核心逻辑无非是：ASR（语音识别）+ TTS（文本转语音）+ 唇形合成/视频驱动。这些底层技术在GitHub上其实非常活跃，但分散在不同的仓库里，对于非技术背景的朋友来说，配置环境、整合模型简直是噩梦。

而且，很多商业软件不仅收费，还对生成的视频有水印、时长限制，甚至数据还要上传到他们的服务器处理，隐私安全性也是个问题。

所以我做的这个项目，主打一个“全掌控”：所有模型本地运行（或私有云端），数据不出域，想怎么改就怎么改。

这个数字人系统主要打通了以下几个关键环节，每一个我都做了精心筛选和适配：

输入语音是第一步。市面上像Whisper这样的模型虽然强，但对硬件要求不低。我在项目里集成了多种ASR方案，既支持高精度的离线模型，也适配了轻量级的版本。这意味着你既可以在高性能显卡上跑顶级识别效果，也能在普通笔记本甚至树莓派上跑个“够用”的版本，实现实时语音转文字。

数字人说话像不像，全看TTS。现在开源的TTS模型爆发力很强，比如VITS、GPT-SoVITS等。我特意调教了几个常用的中文预训练模型，支持.clone声音克隆功能。你只需要录制几秒钟的样本，就能生成属于你声音的数字分身。再也不需要听那些机械的电子音了。

这是最关键的一步。如何让一张静态照片“动”起来？项目中利用了如SadTalker、Wav2Lip等优秀的开源算法。通过音频信号直接驱动面部生成点，还原口型同步率。我针对不同场景做了优化，如果你不想用3D模型，单张2D照片也能生成非常自然的说话视频。

考虑到大家的设备条件参差不齐，我准备了几种部署方案，基本覆盖了大多数使用场景：

1. 本地高性能版（推荐）

如果你有一台像样的N卡（建议显存8G以上），直接本地部署是体验最好的。延迟极低，推理速度快，做口播视频实时预览毫无压力。代码里已经写好了Docker镜像，拉下来就能跑，省去了配Python环境的繁琐步骤。

2. Mac M系列芯片版

现在的MacStudio或者MacBook Pro在AI推理上表现惊人。项目特别做了苹果M系列芯片的CoreML适配，利用Metal加速，可以在不插电的情况下流畅运行大部分模型。对于经常出差需要在外剪辑视频的朋友，这是最佳选择。

3. 低配/云服务器版

如果是“捡垃圾”党，或者手头只有老旧CPU跑不动怎么办？我也适配了量化后的模型，虽然精度略微下降，但用来跑个简单的视频生成完全没问题。当然，也可以把这个项目扔到按需付费的云GPU平台上，用的时候开机，不用就关，比买年卡划算多了。

折腾这一个月，踩过不少坑，也总结了一些经验分享给大家：

开源的意义在于打破信息差和技术壁垒。数字人技术不该是某些SaaS厂商用来割韭菜的工具，而应该是每个人都能玩转的创作助手。

目前项目已经完整开源，没有任何闭源模块。如果你对AI视频创作感兴趣，或者想给自己的博客/频道搞个虚拟代言人，不妨试试这个方案。也欢迎各位大佬提PR，一起把这个轮子造得更圆滑。

最后，如果你觉得这个项目对你有帮助，别忘了给个Star支持一下，你的鼓励是我继续更新的动力！