最近AI圈子里有个挺有意思的讨论,起因是前OpenAI负责大模型优化的工程师 Diogo Almeida 写了一篇博文,名为《Scaling Laws, Honestly》。文章的核心观点很直接:大家奉为圭臬的 Scaling Laws(扩展定律),那个原始版本其实是有 Bug 的,甚至可以说是错误的。

说实话,这倒不算太爆炸的新闻,学术圈子里修正公式、发现Bug是常态。但这篇博文下的一条评论,却引出了一个极具“脑洞”且值得深思的话题:语言本身的特性,会不会正在偷偷决定模型的上限?

英语的“奢侈”与其他语言的“实惠”

Scaling Laws 相关图表

前OpenAI研究员Diogo Almeida的博文配图,展示了关于扩展定律的分析数据。

评论里提到了一个相当具体的对比数据,让人大跌眼镜:

同样架构的模型,训练在法语语料上,仅用 1.75亿 tokens 就在验证测试中达到了 100% 的准确率;而换成英语语料,训练了超过 30亿 tokens,损失依然很高,效果还没达到那个水准。

这就非常有意思了。这就好比同样是背诵一本书,英语版像是一页纸只有几个字的“低密度版”,读起来很顺口,但单位字数承载的信息量少;而中文或法语则像是把大量信息压缩进了一个字里,Token(词元)的信息密度极高

为什么中文模型可能天生“懂数学”?

语言训练对比图表

展示了不同语言(如法语与英语)在模型训练中的Token效率对比数据。

顺着这个思路,评论者抛出了一个大胆的猜想:既然中文在数学表达上以极高的语义密度著称(比如数字、逻辑关系的表达),这是否意味着中文模型在逻辑和数学任务上有着天然的“血统优势”?

这就涉及到大模型训练中的一个核心问题:数据效率

如果模型阅读一个中文Token,能获取的信息量相当于阅读三个英语Token,那么同等算力下,中文模型“看”到的世界显然更丰富、更深邃。这不仅仅是语言的区别,更是信息熵的区别。也许不需要堆砌几千亿的参数,只要语言载体选得好,训练效率就能实现“降维打击”。

我也顺手拿这个观点去问了下 GPT,它虽然没有完全承认这个结论,但也没有反驳,只是给了一个很标准的中间派回答:“这图可以当‘提出猜想的素材’,不能当‘证明结论的证据’。

翻译成人话就是:逻辑上说得通,但还得看实测数据。

如果是真的,这意味着什么?

如果上述推论成立,或者部分成立,AI 的发展风向可能真的要变一变了:

  1. “大力出奇迹”不再是唯一解:我们不能再盲目迷信只有堆参数、堆显卡这一条路了。优化数据质量、选择高信息密度的语言进行预训练,可能是一条性价比更高的捷径。
  2. 非英语模型的翻身仗:过去很长一段时间,AI 的世界通用语是英语,很多评测标准也是基于英语设计的。但如果中文、法文等高密度语言在训练效率上真的有优势,那么针对这些语言优化的模型,完全有可能在逻辑推理、数学能力上跑赢同等规模的英语模型。
  3. “数据分布”决定能力边界:模型学到的东西,本质上是数据分布的投影。如果中文语境下本身就包含更紧凑的逻辑结构,那么模型从中“偷师”到的逻辑能力自然水涨船高,甚至能迁移到其他非中文任务中去。

写在最后

当然,这目前还只是一个基于实验现象的猜想,毕竟影响模型能力的因素太多了(架构、清洗质量、对齐方式等等)。Scaling Laws 的 Bug 也许能修,但“语言特性”这个变量,给了我们一个全新的视角去审视大模型训练。

各位小伙伴怎么看?如果你是模型训练者,你会优先考虑清洗高质量的中文语料,还是继续遵循英语为主的“老路子”?欢迎在评论区聊聊你的看法!

标签: none

AI Skills Smart Station on Nick Launches

评论已关闭