闭源模型的围墙,为何成了开源模型的“练功房”?
最近在冲浪的时候,看到一个非常犀利的观点,让我对现在闭源大模型的各种“围追堵截”有了全新的认识。简单来说,那些闭源模型为了保护自己建立的围墙,搞不好最后会变成射向自己的子弹。
这事儿还得从“数据飞轮”说起。我们一直有个假设:AI 能力的比拼,最后就是数据的比拼。谁能拿到更多、更高质量的真实用户数据,谁就能跑得更远。但是,现在的这个飞轮,似乎正在往一个意想不到的方向转。
1. 围墙越高,数据溢出越纯
现在的先进闭源模型(比如大洋彼岸的 GPT-4 级别产品),为了合规或者其他原因,筑起了一道道高墙。不仅封锁 IP,还要搞各种严格的 KYC(身份认证)。
结果呢?这就形成了一个反向筛选机制:
闭源模型的防风控措施无意中充当了“数据提纯机”的角色
- 普通小白用户:被复杂的注册、支付门槛劝退,或者直接用原本就有的官方渠道。
- 硬核专业用户:为了用上最先进的模型生产力,他们会八仙过海,找中转站、找各种 API 代理。
请注意,这波费尽周折去用中转站的硬核用户,他们的输入和输出数据含金量极高! 他们不是来闲聊的,是来写代码、做科研、搞复杂逻辑的。
这时候,一个有趣的推论就出现了:如果中转站(或者背后的数据整合方)把这些高质量的用户交互数据拿去训练开源模型,那会发生什么?
闭源模型的官方筑起的墙越高,愿意翻墙来用的用户就越专业。而在中转站汇聚的数据,其“有效信息密度”甚至可能比官方自己直接拿到的数据还要高。官方的防风控手段,无意中充当了“数据提纯机”的角色。
2. 价格杠杆与“三个月差距”
还有一个更现实的因素:价格。
随着风控成本的上升,中转站的价格自然水涨船高。但这恰恰再次筛选了用户——只有对效果要求极高、且愿意为高质量买单的人才会买单。这又一步提升了被采集数据的质量。
这时候,开源模型的机遇就来了。
有观点认为,一旦国产或开源模型在能力上与顶尖闭源模型的差距缩小到 “三个月”以内,局势就会彻底反转。
为什么是三个月?因为对于绝大多数应用场景来说,三个月前的技术并不算“落后”。这时候,成本 就成了最大的决胜因素。
正如我们现在看到的,DeepSeek 等国产开源/半开源模型之所以能火,就是因为在性价比上把对手按在地上摩擦。当开源模型足够好用,且价格只有闭源的几十分之一时,优质的开发者和数据自然就会向开源生态倾斜。
3. 数据流向的反转
传统认知里,我们觉得数据应该是从开源流向闭源(毕竟人家盘子大)。但按照这个逻辑,未来可能会出现这种循环:
- 闭源模型搞封锁,逼得硬核用户流向中转站。
- 中转站汇聚了大量高质量的真实生产数据。
- 这些数据被用来训练开源模型,让后者快速逼近SOTA(最先进技术)。
- 开源模型凭借成本优势,吸走大量原本属于闭源模型的市场份额和开发者。
- 更多的开发者在开源模型上产生新数据,数据飞轮加速旋转。
总结
那些先进闭源模型筑起的围墙,本来是为了锁住生态,结果却可能成为了对手最好的“练功房”,源源不断地输送着最精纯的养料。
对于我们普通开发者和用户来说,这当然是个好消息。当国产开源模型还在疯狂卷成本、卷推理速度的时候,我们只要坐享其成就行。毕竟,只要好用且便宜,管它数据是从哪飞来的轮子转出来的呢?
评论已关闭