速度炸裂！GPT-5.6 推理速度狂飙至 750 token/s，Cerebras 改变了什么？

GPT-5.6 推理速度对比图

GPT-5.6 与 GPT-5.5 推理速度对比，显示出巨大的性能差距。

最近技术圈里疯传的一张对比图，直接让我下巴掉到了地上。最新的 GPT-5.6 模型在推理速度上实现了史诗级的飞跃——每秒能输出 750 token！

别小看这个数字，作为对比，大家熟知的 GPT-5.5 速度通常只有 60-70 token/s。这不仅仅是提升了 10% 或者 20%，而是整整 10 倍以上 的性能碾压。

这就好比你以前骑自行车，现在直接坐上了高铁。那种“嗖”一下的感觉，完全不一样了。

750 token/s 到底是什么概念？

很多朋友可能对 token 没有直观的概念。简单粗暴地理解，1 个 token 大约对应 0.75 个英文单词，或者 0.5-0.8 个汉字。

Cerebras 晶圆级引擎芯片

Cerebras 使用的晶圆级芯片，是算力突破的关键硬件。

60 token/s： 这就是我们现在的常态。你问个问题，盯着屏幕，看着它像打字机一样一个字一个字往外蹦，稍微长一点的文章，得等上半分钟甚至更久。这就是所谓的“卡顿感”和“等待时间”。
750 token/s： 这是文字“瀑布流”般的体验。每秒钟能生成几百个汉字，一眨眼功夫一大段就出来了。你读都读不过来，更别说等待了。基本上就是思考一秒，万字长文即时呈现的感觉。

这就意味着 AI 交互将不再有“加载中”的焦虑，体验会极度顺滑，甚至让你感觉是在和一个反应神速的人类聊天，而不是一台机器。

这次速度狂飙，核心原因不在于模型算法本身被施了魔法，而是背后跑模型的硬件换了。

Cerebras（晶圆级引擎公司的缩写） 是这次的主角。不同于英伟达用 GPU 拼凑算力，Cerebras 干了一件很疯狂的事——他们直接在一整块晶圆上做一个芯片。

想象一下，别人是用乐高积木（GPU）拼模型，而 Cerebras 是直接雕刻了一整块巨无霸石头。这样做的优势显而易见：

看到这个数据，老技术男们可能会跟我一样有个疑问：前两年不是说 Cerebras 的良品率感人，根本没法量产吗？

确实，在一整块晶圆上做芯片，技术难度极大。只要有一个微小核心坏了，整块晶圆可能就废了。这也是为什么之前大家总觉得这是“看着爽但买不到”的期货技术。

但从这次的实测数据来看，Cerebras 显然已经跨过了那个“良品率地狱”的门槛，至少已经达到了能够批量部署生产级模型的程度。如果能稳定供货，这对算力市场无疑是一剂猛药。

虽然现在看起来很美好，但现实还是很骨感的。正如评论区大佬所言：“先保证大家都能用到再说吧。”

目前的瓶颈可能在于调度和资源分配：

稀缺资源： 这种超高速度可能目前只针对特定用户或特定区域开放，毕竟算力成本摆在那里。如果人人都是 750 token/s，服务商的电费账单怕是要爆表。
场景分化： 现在大部分时候我们还在“等待”。可能未来会分档：普通用户用 60 token/s，付费用户或专业场景（比如实时代码生成、金融数据分析）优先享受 750+ 的极速通道。

展望一下未来： 如果 1000 token/s 成为常态，那很多职业的效率将直接起飞。

GPT-5.6 达到 750 token/s，是一个里程碑式的信号。它证明了算力优化的天花板还远未触及，Cerebras 的异军突起迫使我们必须重新审视“速度”在 AI 体验中的权重。

虽然现在它可能还显得有点“高冷”，不是谁都能随便用，但技术普及的速度往往比我们想象的要快。也许不用太久，那种“瀑布流”般的文字生成速度，就会成为我们日常使用 AI 的标配。

到时候，我们大概会像嫌弃现在的手机充电慢一样，嫌弃现在的 AI 回复速度慢吧！