DeepSeek 偷偷整活？疑似发布针对 Gemma4 和 Qwen3 的草稿模型

最近逛 Hugging Face 的时候，发现 DeepSeek 的仓库里悄悄多了几个“黑盒”模型。

按照老规矩，DeepSeek 发模型一贯是“模型卡失踪”，这次也不例外，没有任何说明文档，乍一看让人摸不着头脑。本来以为是常规的蒸馏模型或者是新的 MoE 变体，结果仔细研究了一下代码和配置，发现事情并不简单——这大概率是采用了 EAGLE3 和 DFlash 这两种推测解码算法的草稿模型。

什么是草稿模型？

投机采样技术原理示意图

投机采样技术：小模型快速打草稿，大模型并行验证，从而大幅提升推理速度。

在讲 DeepSeek 的新鲜事之前，得先科普一下现在的 AI 推理加速圈子里很火的“投机采样”技术。

简单来说，大模型生成内容是一个字一个字蹦出来的（自回归），速度上自然受限于巨大的参数量。而“草稿模型”的思路就是：

小模型打草稿：用一个很小很快的模型（Draft Model）一次性猜测后面好几个词。
大模型审核：把猜测结果扔给大模型（Main Model）验证。如果大模型点头，那速度就起飞了（一次生成好几个）；如果大模型摇头，哪怕只有一个词不对，那就要重新来。

这套流程的核心就是：草稿模型越准，大模型审核一遍通过的概率越高，推理速度提升就越明显。

DeepSeek 在搞什么鬼？

这次 DeepSeek 上传的模型，核心就是上面说的“打草稿”的角色。从技术细节看，他们似乎在实验和对比不同的推测解码算法，特别是 EAGLE3 和 DFlash。

EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency)：这玩意儿不是简单的训练一个小模型，而是在大模型的层级特征上做文章，通过一个额外的网络来“投机”输出下一层的特征，从而加速生成。
DFlash：这也是一种专注于推测解码优化的算法方案，旨在进一步减少显存带宽的瓶颈，提升验证效率。

DeepSeek 之前发过不少关于推理优化的论文，这次上传模型基本上就是论文理论的落地实验。如果效果拉满，以后我们在本地跑 DeepSeek 的时候，配合这些草稿模型，推理速度可能会有质的飞跃，真正做到“又快又强”。

为什么是 Gemma4 和 Qwen3？

最有意思的一点来了。DeepSeek 既然是自家的技术，搞搞自家 V2、V3 系列的草稿模型那是天经地义，但这次仓库里居然出现了疑似针对 Gemma4 和 Qwen3 的文件。

这就很有画面感了。

1. 技术霸权的另一种体现 现在的模型赛道，除了拼算力、拼参数，拼的也是“生态兼容性”。如果 DeepSeek 开发出的这套草稿模型技术，不仅能服务自家模型，还能给 Google 的 Gemma、阿里的 Qwen 做外挂加速，那这波技术输出的含金量就非常高了。这就好比我造了个涡轮增压器，不仅装自家的车上好用，装隔壁老王的车上也能跑得飞起。

2. 验证算法的泛化性 从实验角度看，这可能也是 DeepSeek 在验证自家 EAGLE3 和 DFlash 算法的通用性。如果能把竞争对手的主流模型也加速了，正好证明这套架构的牛逼之处。这对开发者来说绝对是利好——毕竟谁不想在自己部署 Qwen3 的时候，插个外挂就让速度翻倍呢？

总结

虽然目前这些模型还是“哑巴”状态（没文档），甚至可能还在实验阶段，但这波操作无疑暴露了 DeepSeek 在推理优化上的野心。

对于我们这些普通玩家和开发者来说，只要后面放出来的代码能顺利接入，不管是跑 DeepSeek 还是跑其他的开源大模型，这波“羊毛”算是稳了。毕竟在 AI 局势瞬息万变的今天，谁能把推理成本打下来，谁就掌握了未来的话语权。

下次等文档更新了，咱们再手把手教大家怎么把这些草稿模型挂载到本地环境里，实测一下提速效果！

DeepSeek Hugging Face 仓库截图

DeepSeek 在其 Hugging Face 仓库上传了神秘的“黑盒”模型，没有附带任何说明文档。

DeepSeek 偷偷整活？疑似发布针对 Gemma4 和 Qwen3 的草稿模型

什么是草稿模型？

DeepSeek 在搞什么鬼？

为什么是 Gemma4 和 Qwen3？

总结

评论已关闭

最新文章

最近回复

分类

归档

其它