DeepSeek 又出新动作?Gemma 4 和 Qwen 3 的 DSpark 草稿模型悄悄上线
最近 AI 界的动作真的是一个接一个,还没等大家缓过神来,DeepSeek 又在 Hugging Face(HF)上悄悄搞了个大动作。
有细心的朋友发现,DeepSeek 上传了两个名为 DSpark 的草稿模型,分别基于 Google 的 Gemma 4 和阿里的 Qwen 3。这看起来不仅仅是简单的模型移植,背后似乎藏着关于推理速度优化的一些新思路。
DeepSeek 上传的 DSpark 草稿模型在 Hugging Face 上的展示页面
什么是“草稿模型”?
投机采样(Speculative Sampling)工作原理示意图:草稿模型先行猜测,主模型验证
很多刚接触大模型的朋友看到“草稿”两个字可能会觉得疑惑:难道是还没训练完的半成品?其实不然。
在目前的大模型部署架构中,为了提高推理速度,一种非常流行的技术叫“投机采样”。简单来说,就是让一个小模型(草稿模型)先快速“猜”几个 token,然后让大模型(主模型)来快速验证。如果猜对了,那就直接输出;猜错了再由大模型修正。
因为草稿模型参数量小、跑得快,这种“田忌赛马”的策略能成倍地提升生成速度。DeepSeek 这次上传的 DSpark,正是扮演这样一个“极速先行者”的角色。
Gemma 4 与 Qwen 3 的强强联合?
这次发布的两个版本分别基于 Gemma 4 和 Qwen 3,这也是非常有趣的选择。
- Gemma 4 版本:Gemma 系列一直以轻量化和高效著称,基于它打造的 DSpark 草稿模型,可能更适合在显存受限的边缘设备上玩转投机采样,给手机端或本地轻量级部署带来新的想象空间。
- Qwen 3 版本:通义千问系列在中文理解和逻辑推理上的表现有目共睹。结合 DeepSeek 的优化技术,这个版本的草稿模型很可能会在中英文混合推理场景下大放异彩,作为 Qwen 主模型的“僚机”,效率提升应该非常明显。
这对我们意味着什么?
对于普通用户来说,可能觉得这只是 HF 上多了一个仓库,但对于开发者和重度玩家来说,这可是实打实的“羊毛”和“干货”。
-
本地推理提速指南:如果你正在本地跑 Qwen 3 或者 Gemma 4 的主力模型,现在可以考虑拉取对应的 DSpark 草稿模型,配合 vLLM 或 LMDeploy 等推理框架开启投机采样模式。实测下来,生成速度的提升往往能达到 2 倍甚至更多,延迟体验会有质的飞跃。
-
成本降低:对于 API 提供商来说,推理速度直接等同于 GPU 占用时间和成本。引入高效的草稿模型,意味着同样的硬件能服务更多的用户,这就是实打实的降本增效。
-
技术风向标:DeepSeek 这一动作也再次印证了当前行业的一个趋势:除了单纯卷模型参数规模,如何通过架构优化(如 Draft-Verify 机制)来榨干硬件性能,已经成为各大厂商的重点突围方向。
怎么玩?
如果你想去试一试水,目前代码和模型权重大都已经公开。建议有显卡的朋友先在本地环境测试一下兼容性。需要注意的是,草稿模型的选择需要和主模型“门当户对”,能力不能相差太远,否则验证通不过反而会降低效率。DeepSeek 这次发布的这两个,显然是经过精心匹配的。
总结
DeepSeek 这次虽然没有大张旗鼓地宣传,但上传 Gemma 4 和 Qwen 3 的 DSpark 草稿模型,无疑是给追求极致性能的开发者们送了一份大礼。它不仅展示了 DeepSeek 在推理优化层面的技术积累,也让我们看到了开源社区生态的繁荣。
如果你有现成的显卡资源,不妨去下载下来跑一跑,实测生成的速度究竟提升有多明显,或许会有意外的惊喜。
评论已关闭