我花一个月搞了个开源数字人项目，不想真人出镜的博友看过来

是不是跟我一样，有过想当UP主的冲动，但又实在不想真人出镜，或者对录制视频感到社恐？前阵子我特别想做些口播视频，尝试了一圈市面上的软件后发现，好用的基本都要订阅付费，稍微有点肉疼。

稍微研究了一下发现，其实这些收费软件底层的很多技术都是基于开源模型的，比如语音识别（ASR）、语音合成（TTS）以及数字人驱动模型。只是这些模型分散在各个角落，一个个去尝试、部署简直太累了。

于是，我花了一个月时间，把这些开源资源整合到了一起，做了一个全开源的数字人项目。今天就把这个“羊毛”分享给大家，毕竟用开源模型实现商业级软件的功能，这感觉太爽了。

开源数字人项目实际效果演示

Telegraph 【开源数字人】我花了一个月做的数字人项目，多种资源和平台可部署~欢迎大家体验 & 点stars 我的帖子已经打上 �

为什么我要自己造轮子？

市面上主流的数字人软件通常分为两类：一是SaaS在线生成，按分钟收费，贵不说，样式还有限制；二是本地部署的exe软件，多半是打包了开源项目然后收费，甚至还有后门风险。

对于咱们这种想要折腾、又想自由DIY的人来说，只有源码在手才最踏实。我的目标是：

完全免费：拒绝订阅制，一次部署永久使用。
高度可定制：想换成谁的声音、想换什么形象，自己改代码。
隐私安全：所有数据本地处理，不用上传视频或音频到第三方服务器。

项目核心技术解析

这个项目其实是一个标准的AI音视频处理流水线，我把关键模块拆解一下，方便大家理解其中的门道：

1. 听觉系统：ASR（语音转文字）

如果只是做静态数字人（比如上传图片生成视频），这一步可选；但如果是想搞实时数字人或者需要根据文字生成对应口型，ASR必不可少。

项目中集成了目前效果较好的开源ASR模型（如Whisper等），能够准确识别你的语音输入并转化为文本。这意味着你可以直接对着麦克风说话，数字人就能实时复述你的内容。

2. 嗓音系统：TTS（文字转语音）

这是决定数字人“像不像人”的关键。我测试了多种TTS模型，最终选择了几款在自然度、语速控制和情感表达上表现最佳的模型。

比起早期那个“机器味”很重的朗读声，现在的开源TTS已经能做到基本听不出是AI了，甚至还能调整语气词、停顿，让视频听起来更有亲和力。

3. 视觉系统：数字人驱动

这是项目的核心。我们使用了基于高斯泼溅或者相关的渲染技术（具体视项目选型而定），通过一张照片或一段短视频就能驱动面部表情和头部动作。

相比传统的2D动画，这种方案生成的视频精度更高，口型匹配度也更准，非常适合口播类、科普类内容创作。

部署与体验：没有显卡也能跑？

很多人担心：“开源项目是不是需要4090显卡才能跑？”

其实针对不同的硬件条件，我做了多种优化方案：

云端部署（推荐）：如果你本地电脑配置一般，可以直接扔到云服务器或者AutoDL等平台上跑。我提供了现成的镜像和配置教程，基本上“一键启动”，省去了配环境的痛苦。
本地部署：如果你有一块N卡（显存8G以上体验更佳），当然本地跑起来延迟最低，响应最快。项目对资源占用做了优化，确保在主流消费级显卡上也能流畅生成。

实际使用效果对比

为了验证效果，我特意拿它和某付费软件做了对比：

口型同步：开源模型经过微调后，口型准确率已经非常接近商业软件了，只有在快速连读时会有一点点差异，完全不影响观感。
生成速度：本地部署的话，生成一段1分钟的视频大概只需要几分钟时间，这取决于你的显卡性能。
灵活性：这是最大的优势。付费软件通常只能换模板，而开源项目我可以随意调整参数，比如让数字人笑得更夸张一点，或者语速加快一倍。

总结与展望

这个项目目前算是完成了MVP（最小可行性产品），能够满足基本的数字人视频生成需求。后续我打算继续优化推理速度，争取在CPU上也能跑出不错的帧率，顺便再加一些肢体动作的驱动支持。

如果你也想尝试用AI做视频，但不想被收费软件割韭菜，不妨试试这个方案。所有的代码和资源都已经完整开源，没有任何保留。

动手能力强的朋友可以自己拿去魔改，做一个属于自己的专属数字人主播；不想折腾代码的，按照文档部署一下也能直接上手使用。欢迎大家在体验后多提Issue，或者给个Star鼓励一下！

常见问题解决

Q: 部署时遇到端口冲突怎么办？ A: 可以在配置文件中修改port参数，更换一个未被占用的端口即可。

Q: 生成的视频报错或画质模糊？ A: 首先检查显存是否爆出，如果显存不足，尝试降低生成的分辨率或视频帧率。同时确保输入的源图片或视频清晰度足够高。

Q: 中文语音合成效果不好？ A: 建议更换中文语音特化的模型权重，或者在输入文本中增加标点符号以辅助语气停顿。

我花一个月搞了个开源数字人项目，不想真人出镜的博友看过来

我花一个月搞了个开源数字人项目，不想真人出镜的博友看过来

为什么我要自己造轮子？

项目核心技术解析

1. 听觉系统：ASR（语音转文字）

2. 嗓音系统：TTS（文字转语音）

3. 视觉系统：数字人驱动

部署与体验：没有显卡也能跑？

实际使用效果对比

总结与展望

常见问题解决

评论已关闭

最新文章

最近回复

分类

归档

其它