最近逛 Hugging Face 的时候,发现 DeepSeek 的仓库里悄悄多了几个“黑盒”模型。

按照老规矩,DeepSeek 发模型一贯是“模型卡失踪”,这次也不例外,没有任何说明文档,乍一看让人摸不着头脑。本来以为是常规的蒸馏模型或者是新的 MoE 变体,结果仔细研究了一下代码和配置,发现事情并不简单——这大概率是采用了 EAGLE3DFlash 这两种推测解码算法的草稿模型

什么是草稿模型?

投机采样技术原理示意图

投机采样技术:小模型快速打草稿,大模型并行验证,从而大幅提升推理速度。

在讲 DeepSeek 的新鲜事之前,得先科普一下现在的 AI 推理加速圈子里很火的“投机采样”技术。

简单来说,大模型生成内容是一个字一个字蹦出来的(自回归),速度上自然受限于巨大的参数量。而“草稿模型”的思路就是:

  1. 小模型打草稿:用一个很小很快的模型(Draft Model)一次性猜测后面好几个词。
  2. 大模型审核:把猜测结果扔给大模型(Main Model)验证。如果大模型点头,那速度就起飞了(一次生成好几个);如果大模型摇头,哪怕只有一个词不对,那就要重新来。

这套流程的核心就是:草稿模型越准,大模型审核一遍通过的概率越高,推理速度提升就越明显。

DeepSeek 在搞什么鬼?

这次 DeepSeek 上传的模型,核心就是上面说的“打草稿”的角色。从技术细节看,他们似乎在实验和对比不同的推测解码算法,特别是 EAGLE3DFlash

  • EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency):这玩意儿不是简单的训练一个小模型,而是在大模型的层级特征上做文章,通过一个额外的网络来“投机”输出下一层的特征,从而加速生成。
  • DFlash:这也是一种专注于推测解码优化的算法方案,旨在进一步减少显存带宽的瓶颈,提升验证效率。

DeepSeek 之前发过不少关于推理优化的论文,这次上传模型基本上就是论文理论的落地实验。如果效果拉满,以后我们在本地跑 DeepSeek 的时候,配合这些草稿模型,推理速度可能会有质的飞跃,真正做到“又快又强”。

为什么是 Gemma4 和 Qwen3?

最有意思的一点来了。DeepSeek 既然是自家的技术,搞搞自家 V2、V3 系列的草稿模型那是天经地义,但这次仓库里居然出现了疑似针对 Gemma4Qwen3 的文件。

这就很有画面感了。

1. 技术霸权的另一种体现 现在的模型赛道,除了拼算力、拼参数,拼的也是“生态兼容性”。如果 DeepSeek 开发出的这套草稿模型技术,不仅能服务自家模型,还能给 Google 的 Gemma、阿里的 Qwen 做外挂加速,那这波技术输出的含金量就非常高了。这就好比我造了个涡轮增压器,不仅装自家的车上好用,装隔壁老王的车上也能跑得飞起。

2. 验证算法的泛化性 从实验角度看,这可能也是 DeepSeek 在验证自家 EAGLE3 和 DFlash 算法的通用性。如果能把竞争对手的主流模型也加速了,正好证明这套架构的牛逼之处。这对开发者来说绝对是利好——毕竟谁不想在自己部署 Qwen3 的时候,插个外挂就让速度翻倍呢?

总结

虽然目前这些模型还是“哑巴”状态(没文档),甚至可能还在实验阶段,但这波操作无疑暴露了 DeepSeek 在推理优化上的野心。

对于我们这些普通玩家和开发者来说,只要后面放出来的代码能顺利接入,不管是跑 DeepSeek 还是跑其他的开源大模型,这波“羊毛”算是稳了。毕竟在 AI 局势瞬息万变的今天,谁能把推理成本打下来,谁就掌握了未来的话语权。

下次等文档更新了,咱们再手把手教大家怎么把这些草稿模型挂载到本地环境里,实测一下提速效果!

DeepSeek Hugging Face 仓库截图

DeepSeek 在其 Hugging Face 仓库上传了神秘的“黑盒”模型,没有附带任何说明文档。

标签: none

评论已关闭