OpenAI 的大模型更新节奏真是越来越快了,就在大家还在琢磨怎么把现有模型成本压到最低时,GPT-5.6 系列已经带着全新的定价策略和令人咋舌的性能数据杀到了。这一次,OpenAI 不仅仅是简单地换个版本号,而是在计算成本优化硬件加速这两个核心点上动了不少真格。

对于开发者和技术爱好者来说,这次更新有三个最值得关注的点:全新的分级定价体系、更有“套路”的显式缓存机制,以及那个号称“史诗级”速度的 Cerebras 超级快版。咱们来细细拆解一下。

💰 分级定价:丰俭由人的三档选择

这次 GPT-5.6 并没有“一刀切”,而是像买手机一样分成了三个档次:Sol、Terra 和 Luna。

  • Sol(旗舰版): 输入 5 美元 / 百万 Tokens,输出 30 美元 / 百万 Tokens。这显然是给那些追求极致推理效果、对成本不太敏感的重度场景准备的。
  • Terra(均衡版): 输入 2.5 美元 / 百万 Tokens,输出 15 美元 / 百万 Tokens。价格直接腰斩,适合大多数主流应用,性价比这一块拿捏得挺死。
  • Luna(入门版): 输入 1 美元 / 百万 Tokens,输出 6 美元 / 百万 Tokens。这价格甚至比很多现有的轻量级模型还要有竞争力,估计是用来抢占大规模、高并发但逻辑要求没那么极端的市场。

更有意思的是,模型还新增了推理选项 maxultra。虽然具体细节还没完全公开,但这通常意味着你可以花钱“买”更长的思维链或者更复杂的逻辑推理能力。对于数学推理、代码生成等硬核任务,这两个选项可能会成为救命稻草。

💾 算账的艺术:显式缓存机制升级

如果你在做 RAG(检索增强生成)或者长对话应用,你会发现用户经常会重复问一些背景信息,比如“我是谁”、“项目背景是什么”。以前的模型每次重复这些上下文都要重新算一遍钱,心疼不心疼?

GPT-5.6 把这个痛点给治了。新系列支持显式缓存断点至少 30 分钟的缓存寿命。这里的门道在于它的计费逻辑:

  • 缓存写入: 按未缓存输入费率的 1.25倍 计费。是的,写入缓存是要多花钱的,这相当于为了以后省钱先交点“保护费”。
  • 缓存读取: 享受 90% 的折扣

举个例子: 假设你有一段 10k Tokens 的系统提示词,每次对话都必须带上。

  • 以前: 每次对话都要按全价付这段 10k Tokens 的钱,用户问 10 个问题,你就付 10 次。
  • 现在: 第一次写入时付 1.25 倍的钱(比如 12.5 美元的价值),之后 30 分钟内再次调用,只要付 10% 的钱(比如 1.25 美元的价值)。

这意味着,如果你的应用场景中有大量重复输入(比如知识库检索、长时间会话),这个机制能让你省下一大笔算力开支。这不仅是技术优化,更是商业模式上的精算。

Cerebras 晶圆级芯片

Cerebras 的 Wafer-Scale Engine 芯片

⚡ Cerebras 上阵:每秒 750 Tokens 的极速体验

最让我瞠目结舌的消息是,7 月份将会推出运行在 Cerebras 芯片上的 GPT-5.6 Sol 版本。

Cerebras 这家公司一直搞的是最大的芯片(Wafer-Scale Engine),就是那块比披萨还大的晶圆级芯片。这次合作带来的效果是爆炸性的:高达每秒 750 个 Token 的推理速度。

这是什么概念?目前的顶级 LLM(哪怕是 GPT-4 或 Claude 3.5),生成速度通常也就是每秒几十到一百出头 Tokens。阅读体验大概是“几个字蹦出来一次”。而 750 TPS?那是“刷刷刷”瞬间生成一大段文字的速度,甚至可能比你人类的阅读速度还快。

这种极速推理对于实时语音助手、直播互动、即时代码补全等对延迟极其敏感的场景来说,简直是神器。再也不用看着光标一闪一闪地转圈圈了。

写在最后

GPT-5.6 的这套组合拳其实释放了一个明确的信号:AI 基础设施正在进入“拼性能、拼成本控制”的白热化阶段。

一方面,通过分级定价和缓存机制,让开发者在不同场景下都能找到成本最优解;另一方面,通过与 Cerebras 等硬件厂商的深度合作,硬生生把推理速度拉到了新高度。对于我们这些普通玩家和应用开发者来说,这无疑是巨大的利好——以后不管是折腾羊毛还是做产品,门槛可能会更低,但体验会变得更爽。

标签: none

评论已关闭