回看2020年的GPT-3大讨论：我们当年都错过了什么？

还记得 2020 年那个夏天吗？当时 OpenAI 悄悄发布了 GPT-3 的论文和 API，瞬间在技术圈引发了一波不小的震动。最近翻看当年的讨论帖，那种充满怀疑、兴奋又不解的氛围，真的让人感慨万千。今天就想借着这个机会，和大家聊聊当年我们是怎么看 GPT-3 的，以及这短短几年间，大模型领域究竟发生了怎样的翻天覆地的变化。

GPT-3 论文封面图

2020年 OpenAI 发布的 GPT-3 论文引发了技术圈的广泛关注

当年的“它”，只是个更聪明的聊天机器人？

把时钟拨回 2020 年。那时候大家眼里的 GPT-3，更多是一个“参数巨大”的语言模型。那时候的热门讨论点集中在：1750 亿个参数到底意味着什么？这玩意儿能不能写代码？会不会取代初级程序员？

那时候的社区氛围，很多人是抱着看热闹的心态。有人说它是“随机鹦鹉”，有人说它只会复读，更多人甚至在怀疑它的商业价值——毕竟那时候调用 API 的成本可不低，而且生成的文字经常一本正经地胡说八道。

大模型涌现能力展示图

随着参数规模的增加，大模型展现出了意想不到的涌现能力

有趣的是，当时很少有人能预见到“提示词工程”会变成一门显学，也没人能想到两年后 ChatGPT 的横空出世会让 AI 真正走进千家万户。那时候我们对“智能”的理解，还停留在它能不能通过图灵测试，或者能不能写出一篇没有语病的高考作文上。

被低估的“涌现”能力

回顾当时的帖子，最大的认知偏差其实在于对“量变引起质变”的低估。

大家习惯用传统的软件思维去套用 AI 模型：功能列表是什么？Bug 多不多？准确率多少？但大模型的发展逻辑完全不同。当年的 GPT-3 其实已经具备了很多我们现在惊呼的能力，比如逻辑推理、少样本学习，但受限于当年的生态和缺乏好的交互界面，这些能力被深深埋藏了起来。

那时候的我们，更像是对着一辆法拉利的引擎在评头论足，讨论它的气缸数和油耗，却没想到把它装进车身里后，跑起来会是怎样的速度。这种“涌现”能力不是设计出来的，而是“长”出来的，这一点在当时简直是不可想象的。

从 GPT-3 到现在：我们经历了什么？

现在的局面大家都看到了。微调、RLHF（人类反馈强化学习）、 Agent 智能体、RAG（检索增强生成）……各种新概念层出不穷。这些技术的成熟，才真正释放了大模型的潜力。

如果说 2020 年是“蛮荒时代”，大家还在惊叹于参数规模；那么现在就是“精耕细作”的时代。我们不再单纯追求大，而是追求“好用”。如何让模型更懂垂直领域的知识？如何让它输出更可控？如何降低推理成本？这才是当前的主旋律。

回过头看，当年那些说“GPT-3 没用的”言论，其实并没有错，因为在当时的场景下，它确实很难落地。真正改变世界的，不仅仅是模型本身，还有围绕它构建的整个生态系统。

展望未来：别让现在的认知限制了想象力

写这篇文章不是为了嘲笑当年的眼光有多局限，恰恰相反，这说明技术迭代的速度远超我们的想象。今天我们觉得惊艳的 Sora、Claude 3 或者 GPT-4o，也许在几年后看来，也不过是像 GPT-3 一样，只是某个更宏大时代的“早期原型”。

保持好奇心，保持对新技术的敏感度，别轻易下结论说某个技术“没啥用”。也许你现在看不上的某个 Demo，几年后就会彻底改变你的工作方式。

技术圈永远不缺热点，但能穿越周期的，往往是那些一开始看起来“笨重”且“不完美”的基础设施。让我们继续期待下一个 GPT-3 时刻吧。

回看2020年的GPT-3大讨论：我们当年都错过了什么？

当年的“它”，只是个更聪明的聊天机器人？

被低估的“涌现”能力

从 GPT-3 到现在：我们经历了什么？

展望未来：别让现在的认知限制了想象力

评论已关闭

最新文章

最近回复

分类

归档

其它