如何像侦探一样通过开源文件“扒”出LLM模型的真实架构？

最近大模型圈又热闹起来了，各种“自研”、“下一代”模型层出不穷。但大家心里都有个问号：这玩意儿到底是不是真的从零开始搓的？还是在某个开源基座上修修补补，甚至只是简单的“换皮”发布？

之前某大厂的“盘古”系列模型引发过不少争议，核心原因之一就是有人扒出其模型文件里残留了其他开源模型（比如Qwen）的字段痕迹。这其实给了我们一个很好的启示：代码和配置不会撒谎，但PPT会。

既然官方文档有时候雾里看花，那我们自己动手，像侦探一样通过开源文件来判断模型的真实架构。今天就来聊聊具体的“刑侦”手段。

思考表情

像侦探一样思考，揭开模型架构的真相

通常在Hugging Face或者ModelScope下载一个开源模型时，里面都会有一个核心配置文件（Hugging Face格式通常是config.json）。这个文件几乎囊括了模型架构的所有DNA。

打开这个文件，别被一大堆参数吓到，重点盯着几个关键“嫌疑人”看：

architectures: 这是最直接的身份证。如果它写的是LlamaForCausalLM，虽然不代表权重一定来自Meta，但说明它的架构逻辑是严格遵循Llama标准的。如果这里出现了非常特殊的命名（比如Qwen2ForCausalLM），那基本也就实锤了基座来源。
hidden_size, num_attention_heads, num_hidden_layers: 这些数值构成了模型的具体形状。把这几个参数拿去和其他主流模型对比，如果完全吻合某个知名开源模型，那大概率就是“套壳”或者微调版本，而不是新架构。

现在的模型为了追求性能，会在底层细节上做很多微调。通过检查特定参数，能看出有没有“魔改”过：

RoPE (旋转位置编码) 相关参数：这是目前LLM的主流选择。重点看rope_theta或者rope_scaling配置。
- 例如，Llama 3使用的rope_theta值是特定的，而Mistral或者Qwen又各有不同。
- 如果一个模型宣称能支持超长上下文（比如128k甚至1M），但它的rope_scaling配置和基座模型完全一样，没有用YaRN或NTK-aware等插值算法的特殊配置，那它的长文本能力就很值得怀疑。
Attention 类型：
- 检查是否使用了GQA (Grouped Query Attention) 或者MQA。现在的MoE模型和大参数模型普遍用GQA来减少显存占用。如果在配置里看到了num_key_value_heads小于num_attention_heads，说明用了GQA。对比一下这个比例是否和宣称的基座一致。

Config JSON 示例

典型的 config.json 配置文件示例，展示核心架构字段

架构可能一样，但训练数据是核心机密。不过，Tokenizer的配置文件（如tokenizer_config.json和vocab.json）往往会留下数据痕迹。

词表大小：如果模型用的是Llama的词表（32000），那训练数据大概率也是从英文为主的语料起步的。如果是大于100000的词表，通常意味着模型为了适配多语言（特别是中文）做了专门的扩充（比如Qwen、Yi、InternLM系列）。
特殊Token：看配置里是否定义了特殊的<|im_start|>、<|im_end|>或者是某些特有的系统提示词Token。如果“新模型”沿用了某知名模型的Prompt模板强制格式，那它的训练指令集很可能也是基于该模型清洗而来的。

以后看到任何新模型发布，不要只看官方发出来的“评测分数”和“新闻通稿”。去下载它的权重，花五分钟打开config.json。

技术圈讲究“Talk is cheap, show me the code”。对于模型来说，Show me the config 才是硬道理。掌握这些小技巧，你也能轻松一眼看穿哪些是真正的技术创新，哪些只是 Marketing 的包装罢了。

大家在玩模型的时候有遇到什么离谱的“重命名”事件吗？欢迎在评论区分享你的鉴伪经验！