DeepSeek 悄悄放大招：Gemma 4 和 Qwen 3 的 dSpark 草案模型现身 HF

最近 AI 界的大动作有点多，除了各家都在卷参数和排名，DeepSeek 这边似乎在闷声干大事。

就在刚刚，有眼尖的技术极客发现，DeepSeek 在 Hugging Face（HF）上悄咪咪地上传了两个新模型的草案版本——分别是 Gemma 4 和 Qwen 3 的 dSpark 模型。这波操作虽然低调，但信号意义很强，咱们今天就来盘一盘这到底是个什么情况，以及对我们这些爱折腾模型的人来说意味着什么。

Hugging Face 上 DeepSpec 合集页面截图，显示了 Gemma 4 和 Qwen 3 的 dSpark 草案模型。

Hugging Face 上的 DeepSpec 合集页面，展示了 Gemma 4 和 Qwen 3 的 dSpark 草案模型（来源：Hugging Face）

🧐 什么是 dSpark？草案模型值得试吗？

首先得纠正一个概念，这次放出的并不是所谓的“正式发布版”，而是带有 “dSpark” 后缀的草案模型。

在 DeepSeek 的技术语境里，“Spec” 通常代表 Specification（规格/规格书），或者是指代某种特定的技术探索分支。而 dSpark 这个名字听起来就很带感，可能是指某种基于 Spark 分布式计算思想的蒸馏或者架构优化版本，也有可能是 DeepSeek 针对这两个热门架构进行的特殊魔改。

虽然是草案，但放出模型权重通常意味着核心架构已经基本跑通，只是训练轮数、数据配比或者对齐策略还在调整中。对于我们这些“羊毛党”和技术开发者来说，这反而是个绝佳的机会：

第一时间尝鲜：不用等官方发布会大张旗鼓的宣传，现在就能跑起来看看效果。
挖掘潜力：草案模型往往保留了更多的“原始野性”，未经过度“对齐”或者“阉割”，在某些特定任务上（如代码生成、逻辑推理）可能会有意想不到的表现。
技术验证：如果你是开发者，可以通过这两个草案窥探 DeepSeek 对 Gemma 和 Qwen 这两种不同技术路线的融合或改进思路。

⚔️ Gemma 4 vs Qwen 3：DeepSeek 怎么选？

DeepSeek 作为一个后起之秀，同时放出针对 Google Gemma 和阿里 Qwen 的魔改版本，这局面很有意思。

Gemma 4 dSpark：Google 的 Gemma 系列一直以轻量化和高效著称，非常适合在消费级显卡上运行。DeepSeek 的这个草案很可能是保留了 Gemma 的轻量优势，同时融入了自己的 MoE（混合专家）或训练策略，试图在“小而美”的路上走出新花样。
Qwen 3 dSpark：通义千问（Qwen）系列目前在开源界的口碑极佳，长文本和中文理解能力是一绝。DeepSeek 这边的草案大概率是针对 Qwen 的强项做了进一步强化，或者是探索了某种新的 scaling law（缩放定律）。

这就好比大厨拿到了两种不同的顶级食材，DeepSeek 正在用自己独到的“火候”尝试做出两道不同的新菜。对于我们普通用户来说，不管是部署本地知识库，还是拿来跑 AI 绘画提示词生成，这两个方向都很值得关注。

🚀 如何获取并上手？

既然是草案模型，获取方式其实非常简单，直接去 Hugging Face 搜 DeepSeek 的官方组织页即可。

访问 HF 平台：直接打开 Hugging Face 官网。
搜索 DeepSpec：在搜索栏输入 DeepSpec 或者直接去 DeepSeek 的官方主页。你会发现一个名为 DeepSpec 的 Collection（合集），里面已经挂载了这两个新家伙。
下载与部署：目前看上传的应该是模型权重文件。如果你手头有显存富裕的显卡（建议 24G 以上起步玩得比较爽），可以直接通过 Git LFS 拉取下来，用 llama.cpp 或者 vLLM 进行量化部署。如果是算力紧张的朋友，也可以关注一下后续有没有社区大佬放出 GGUF 或者 AWQ 的量化版本。

💡 总结与建议

这次 DeepSeek 的“偷跑”行为，更像是一种技术自信的展示。在当前大模型竞争白热化的阶段，敢于公开草案模型，说明他们对底层技术和工程化能力非常有底气。

给大大家的建议：

如果你是吃瓜群众：观望一下社区的首发评测就行，毕竟草案可能会有 Bug 或者幻觉问题，日常使用建议等正式版。
如果你是极客/开发者：赶紧去下下来跑跑看！这种草案模型往往是挖掘新特性、做微调实验的最好素材。谁能从草案中发现 DeepSeek 的技术秘密，谁就能在下一波技术浪潮中抢占先机。

不得不说，2024 年的 AI 圈子真是越来越热闹了，咱们且看 DeepSeek 这波 dSpark 能不能擦出新的火花。

DeepSeek 悄悄放大招：Gemma 4 和 Qwen 3 的 dSpark 草案模型现身 HF

🧐 什么是 dSpark？草案模型值得试吗？

⚔️ Gemma 4 vs Qwen 3：DeepSeek 怎么选？

🚀 如何获取并上手？

💡 总结与建议

评论已关闭

最新文章

最近回复

分类

归档

其它