闭源模型的围墙，为何成了开源模型的“练功房”？

最近在冲浪的时候，看到一个非常犀利的观点，让我对现在闭源大模型的各种“围追堵截”有了全新的认识。简单来说，那些闭源模型为了保护自己建立的围墙，搞不好最后会变成射向自己的子弹。

这事儿还得从“数据飞轮”说起。我们一直有个假设：AI 能力的比拼，最后就是数据的比拼。谁能拿到更多、更高质量的真实用户数据，谁就能跑得更远。但是，现在的这个飞轮，似乎正在往一个意想不到的方向转。

现在的先进闭源模型（比如大洋彼岸的 GPT-4 级别产品），为了合规或者其他原因，筑起了一道道高墙。不仅封锁 IP，还要搞各种严格的 KYC（身份认证）。

结果呢？这就形成了一个反向筛选机制：

数据提纯机示意图

闭源模型的防风控措施无意中充当了“数据提纯机”的角色

请注意，这波费尽周折去用中转站的硬核用户，他们的输入和输出数据含金量极高！ 他们不是来闲聊的，是来写代码、做科研、搞复杂逻辑的。

这时候，一个有趣的推论就出现了：如果中转站（或者背后的数据整合方）把这些高质量的用户交互数据拿去训练开源模型，那会发生什么？

闭源模型的官方筑起的墙越高，愿意翻墙来用的用户就越专业。而在中转站汇聚的数据，其“有效信息密度”甚至可能比官方自己直接拿到的数据还要高。官方的防风控手段，无意中充当了“数据提纯机”的角色。

还有一个更现实的因素：价格。

随着风控成本的上升，中转站的价格自然水涨船高。但这恰恰再次筛选了用户——只有对效果要求极高、且愿意为高质量买单的人才会买单。这又一步提升了被采集数据的质量。

这时候，开源模型的机遇就来了。

有观点认为，一旦国产或开源模型在能力上与顶尖闭源模型的差距缩小到 “三个月”以内，局势就会彻底反转。

为什么是三个月？因为对于绝大多数应用场景来说，三个月前的技术并不算“落后”。这时候，成本就成了最大的决胜因素。

正如我们现在看到的，DeepSeek 等国产开源/半开源模型之所以能火，就是因为在性价比上把对手按在地上摩擦。当开源模型足够好用，且价格只有闭源的几十分之一时，优质的开发者和数据自然就会向开源生态倾斜。

传统认知里，我们觉得数据应该是从开源流向闭源（毕竟人家盘子大）。但按照这个逻辑，未来可能会出现这种循环：

那些先进闭源模型筑起的围墙，本来是为了锁住生态，结果却可能成为了对手最好的“练功房”，源源不断地输送着最精纯的养料。

对于我们普通开发者和用户来说，这当然是个好消息。当国产开源模型还在疯狂卷成本、卷推理速度的时候，我们只要坐享其成就行。毕竟，只要好用且便宜，管它数据是从哪飞来的轮子转出来的呢？