DeepSeek 又出新动作？Gemma 4 和 Qwen 3 的 DSpark 草稿模型悄悄上线

最近 AI 界的动作真的是一个接一个，还没等大家缓过神来，DeepSeek 又在 Hugging Face（HF）上悄悄搞了个大动作。

有细心的朋友发现，DeepSeek 上传了两个名为 DSpark 的草稿模型，分别基于 Google 的 Gemma 4 和阿里的 Qwen 3。这看起来不仅仅是简单的模型移植，背后似乎藏着关于推理速度优化的一些新思路。

DeepSeek DSpark Models on Hugging Face

DeepSeek 上传的 DSpark 草稿模型在 Hugging Face 上的展示页面

Speculative Sampling Mechanism Diagram

投机采样（Speculative Sampling）工作原理示意图：草稿模型先行猜测，主模型验证

很多刚接触大模型的朋友看到“草稿”两个字可能会觉得疑惑：难道是还没训练完的半成品？其实不然。

在目前的大模型部署架构中，为了提高推理速度，一种非常流行的技术叫“投机采样”。简单来说，就是让一个小模型（草稿模型）先快速“猜”几个 token，然后让大模型（主模型）来快速验证。如果猜对了，那就直接输出；猜错了再由大模型修正。

因为草稿模型参数量小、跑得快，这种“田忌赛马”的策略能成倍地提升生成速度。DeepSeek 这次上传的 DSpark，正是扮演这样一个“极速先行者”的角色。

这次发布的两个版本分别基于 Gemma 4 和 Qwen 3，这也是非常有趣的选择。

Gemma 4 版本：Gemma 系列一直以轻量化和高效著称，基于它打造的 DSpark 草稿模型，可能更适合在显存受限的边缘设备上玩转投机采样，给手机端或本地轻量级部署带来新的想象空间。
Qwen 3 版本：通义千问系列在中文理解和逻辑推理上的表现有目共睹。结合 DeepSeek 的优化技术，这个版本的草稿模型很可能会在中英文混合推理场景下大放异彩，作为 Qwen 主模型的“僚机”，效率提升应该非常明显。

对于普通用户来说，可能觉得这只是 HF 上多了一个仓库，但对于开发者和重度玩家来说，这可是实打实的“羊毛”和“干货”。

本地推理提速指南：如果你正在本地跑 Qwen 3 或者 Gemma 4 的主力模型，现在可以考虑拉取对应的 DSpark 草稿模型，配合 vLLM 或 LMDeploy 等推理框架开启投机采样模式。实测下来，生成速度的提升往往能达到 2 倍甚至更多，延迟体验会有质的飞跃。
成本降低：对于 API 提供商来说，推理速度直接等同于 GPU 占用时间和成本。引入高效的草稿模型，意味着同样的硬件能服务更多的用户，这就是实打实的降本增效。
技术风向标：DeepSeek 这一动作也再次印证了当前行业的一个趋势：除了单纯卷模型参数规模，如何通过架构优化（如 Draft-Verify 机制）来榨干硬件性能，已经成为各大厂商的重点突围方向。

如果你想去试一试水，目前代码和模型权重大都已经公开。建议有显卡的朋友先在本地环境测试一下兼容性。需要注意的是，草稿模型的选择需要和主模型“门当户对”，能力不能相差太远，否则验证通不过反而会降低效率。DeepSeek 这次发布的这两个，显然是经过精心匹配的。

DeepSeek 这次虽然没有大张旗鼓地宣传，但上传 Gemma 4 和 Qwen 3 的 DSpark 草稿模型，无疑是给追求极致性能的开发者们送了一份大礼。它不仅展示了 DeepSeek 在推理优化层面的技术积累，也让我们看到了开源社区生态的繁荣。

如果你有现成的显卡资源，不妨去下载下来跑一跑，实测生成的速度究竟提升有多明显，或许会有意外的惊喜。