Scaling Laws 是错的？聊聊语言信息密度对模型训练的降维打击

最近AI圈子里有个挺有意思的讨论，起因是前OpenAI负责大模型优化的工程师 Diogo Almeida 写了一篇博文，名为《Scaling Laws, Honestly》。文章的核心观点很直接：大家奉为圭臬的 Scaling Laws（扩展定律），那个原始版本其实是有 Bug 的，甚至可以说是错误的。

说实话，这倒不算太爆炸的新闻，学术圈子里修正公式、发现Bug是常态。但这篇博文下的一条评论，却引出了一个极具“脑洞”且值得深思的话题：语言本身的特性，会不会正在偷偷决定模型的上限？

英语的“奢侈”与其他语言的“实惠”

Scaling Laws 相关图表

前OpenAI研究员Diogo Almeida的博文配图，展示了关于扩展定律的分析数据。

评论里提到了一个相当具体的对比数据，让人大跌眼镜：

同样架构的模型，训练在法语语料上，仅用 1.75亿 tokens 就在验证测试中达到了 100% 的准确率；而换成英语语料，训练了超过 30亿 tokens，损失依然很高，效果还没达到那个水准。

这就非常有意思了。这就好比同样是背诵一本书，英语版像是一页纸只有几个字的“低密度版”，读起来很顺口，但单位字数承载的信息量少；而中文或法语则像是把大量信息压缩进了一个字里，Token（词元）的信息密度极高。

为什么中文模型可能天生“懂数学”？

语言训练对比图表

展示了不同语言（如法语与英语）在模型训练中的Token效率对比数据。

顺着这个思路，评论者抛出了一个大胆的猜想：既然中文在数学表达上以极高的语义密度著称（比如数字、逻辑关系的表达），这是否意味着中文模型在逻辑和数学任务上有着天然的“血统优势”？

这就涉及到大模型训练中的一个核心问题：数据效率。

如果模型阅读一个中文Token，能获取的信息量相当于阅读三个英语Token，那么同等算力下，中文模型“看”到的世界显然更丰富、更深邃。这不仅仅是语言的区别，更是信息熵的区别。也许不需要堆砌几千亿的参数，只要语言载体选得好，训练效率就能实现“降维打击”。

我也顺手拿这个观点去问了下 GPT，它虽然没有完全承认这个结论，但也没有反驳，只是给了一个很标准的中间派回答：“这图可以当‘提出猜想的素材’，不能当‘证明结论的证据’。”

翻译成人话就是：逻辑上说得通，但还得看实测数据。

如果是真的，这意味着什么？

如果上述推论成立，或者部分成立，AI 的发展风向可能真的要变一变了：

“大力出奇迹”不再是唯一解：我们不能再盲目迷信只有堆参数、堆显卡这一条路了。优化数据质量、选择高信息密度的语言进行预训练，可能是一条性价比更高的捷径。
非英语模型的翻身仗：过去很长一段时间，AI 的世界通用语是英语，很多评测标准也是基于英语设计的。但如果中文、法文等高密度语言在训练效率上真的有优势，那么针对这些语言优化的模型，完全有可能在逻辑推理、数学能力上跑赢同等规模的英语模型。
“数据分布”决定能力边界：模型学到的东西，本质上是数据分布的投影。如果中文语境下本身就包含更紧凑的逻辑结构，那么模型从中“偷师”到的逻辑能力自然水涨船高，甚至能迁移到其他非中文任务中去。

写在最后

当然，这目前还只是一个基于实验现象的猜想，毕竟影响模型能力的因素太多了（架构、清洗质量、对齐方式等等）。Scaling Laws 的 Bug 也许能修，但“语言特性”这个变量，给了我们一个全新的视角去审视大模型训练。

各位小伙伴怎么看？如果你是模型训练者，你会优先考虑清洗高质量的中文语料，还是继续遵循英语为主的“老路子”？欢迎在评论区聊聊你的看法！

Scaling Laws 是错的？聊聊语言信息密度对模型训练的降维打击

英语的“奢侈”与其他语言的“实惠”

为什么中文模型可能天生“懂数学”？

如果是真的，这意味着什么？

写在最后

评论已关闭

最新文章

最近回复

分类

归档

其它