盘古 920 亿参数模型开源，92B 总参却只激活 6B？

最近大模型圈又热闹起来了，华为系的盘古大模型终于有了新动作。一款代号为 openPangu-2.0-Flash 的模型在 6 月 30 日正式宣布开源。最引人注目的不是名字，而是它有点“反直觉”的参数配置：总参数量 92B（920 亿），但激活参数量只有 6B（60 亿）。

很多朋友看到这个数据可能第一反应是懵的：这到底是多大模型？是超大模型还是中小模型？今天就带大家扒一扒这个新发布的技术细节，看看它到底有什么玄机，以及我们普通人怎么去薅这波“技术羊毛”。

什么是 92B 总参，6B 激活？

MoE 架构示意图

MoE（混合专家）架构示意图：展示了模型如何在处理特定任务时只激活部分专家网络。

这就不得不提目前大模型领域非常火热的 MoE（Mixture of Experts，混合专家）架构。

传统的密集模型，也就是我们常说的 Dense 模型，比如 Llama 3 8B，你每输入一个字，这 80 亿个参数全都要参与计算。而 MoE 模型则像是一个拥有很多分身的高手，它总共有 920 亿个“脑细胞”（参数），但在处理具体任务时，它只会唤醒其中最擅长的“专家”团队来干活。对于 openPangu-2.0-Flash 来说，同时被唤醒参与计算的参数大约只有 60 亿。

大模型参数激活对比图

大模型参数激活对比：Dense 模型与 MoE 模型在推理时的参数激活量差异。

这种设计有什么好处？

“吃的是草，挤的是奶”：理论上，它拥有 920亿参数的知识储备（见识多、知识库大），但在推理（跑模型）的时候，计算量和显存占用却只相当于一个 6B 的模型。这意味着我们可以在消费级显卡，甚至在配置稍高的笔记本电脑上跑起来体验 SOTA（最前沿）的效果。
响应速度更快：因为算的少了，生成速度自然就上去了，特别适合对延迟要求高的场景。

实际上手与体验

n 虽然新闻发出来了，但根据目前的社区反馈，官方的代码仓库似乎还在上架中（开源地址主要集中在 Ascend Tribe 等平台）。这对于想第一时间尝鲜的小伙伴来说可能是个小小的“劝退点”。

不过，我们可以先做些准备工作：

硬件预期：既然激活参数只有 6B，那么显存需求应该不会太高。如果是 Int4 量化版本，预计 8GB-10GB 左右的显存就能比较流畅地运行。这让很多 4060 笔记本用户有了期待。
部署建议：鉴于华为盘古系列与昇腾生态的紧密联系，如果你有昇腾 NPU 环境体验自然是最佳。但大多数个人玩家还是在 NVIDIA 显卡上玩，关注后续是否有社区大佬进行 GGUF 或 AWQ 格式的转换是很重要的，这样才能在 Ollama 或 LM Studio 中一键启动。

与当前主流模型的对比

现在开源届的当红炸子鸡无疑是 Llama 3 和 Mistral 系列，盘古 Flash 的出现有什么意义？

中文理解能力：盘古模型在中文语境下的表现一直有口皆碑。虽然 Llama 3 8B 很强，但在中文成语、地道表达和文化理解上，国产大模型往往更懂“中国味”。盘古 92B 借助庞大的参数基数，在问答的深度和逻辑性上或许能展现出“大就是好”的优势。
效率之争：如果你在找一个又快又准的中文模型，Flash 版本显然是为了效率而生。相比同样参数的 Dense 模型，它提供了更多知识密度。

写在最后：怎么薅这个羊毛？

目前代码仓库还在逐步开放中，大家可以先关注相关的代码托管平台。如果你是技术小白，不妨等一等后续的整合包，到时候我会再出一期保姆级教程，教你如何在本地电脑上把它部署成自己的“私人助理”。

对于这个“大脑袋、小手笔”的模型，你最想用它来做什么？是写代码、画大纲，还是当个中文陪练？欢迎在评论区聊聊你的想法！

盘古 920 亿参数模型开源，92B 总参却只激活 6B？

什么是 92B 总参，6B 激活？

实际上手与体验

与当前主流模型的对比

写在最后：怎么薅这个羊毛？

评论已关闭

最新文章

最近回复

分类

归档

其它