API 缓存读取收费太坑？对比几家中转服务后，我发现了最佳性价比方案

最近在搞一个新项目，涉及到大量的 AI 模型调用，本来以为接口费是大头，结果踩了一个大坑——缓存读取（Cache Read）的费用居然这么贵？！

API缓存隐藏费用概念图

API 缓存可能带来的隐形费用示意

很多人（包括之前的我）使用支持 Prompt 缓存的 API 时，只关注了“写入缓存”或者说输入的成本，却忽略了“缓存命中”后的读取费用。

理论上，缓存是为了省钱，因为不用重复把上下文发给模型处理。但有些服务商的定价策略简直离谱：缓存读取的价格居然比正常输入还要高，或者按比例收费极不合理。

这次我主要用了 Claude 的 1 倍率中转，结果账单一出来，直接傻眼。虽然响应速度确实提升了，但因为缓存读取的计费坑爹，最后算下来的成本并没有比不用缓存便宜多少，甚至在某些高轮次对话的场景下，反而更花钱。这哪里是缓存，简直是“读一遍收一遍过路费”。

Claude 与 GLM 模型对比图

Claude 与 GLM 模型的性能与成本对比

1. Claude 的坑

在某个不知名的所谓“低价”中转站调用了 Claude。表面上 Token 价格打了个折，但缓存读取的计费细则藏得很深。一旦你的上下文被缓存，后续每次读取都要缴纳不菲的费用。如果你是做长文档总结或者多轮对话，这部分的积少成多非常可怕。

2. GLM 的表现

相比之下，最近测试了 GLM（智谱）的模型，感觉倒是不错。尤其是找了一个靠谱的 GLM 中转服务，整体的计费逻辑比较清晰，中文表现也在稳步提升。对于国内用户来说，GLM 的延迟和稳定性是一个很好的备选方案，而且目前对于缓存的处理相对更良心一些。

踩了一圈坑，最后还是回流到了“那个男人的站”（懂的都懂，社区里口碑极稳的那个）。

经过详细对比，这个站的定价结构才是最合理的：

透明度高： 输入、输出、缓存读取怎么收费一目了然，没有隐形加价。
性价比均衡： 虽然单价不一定全网最低，但加上缓存优化的成本后，总价往往是最优的。特别是缓存读取的扣费非常克制，这才是真正鼓励用户使用技术优化成本，而不是靠技术名词多收钱。
稳定性好： 这一点其实比省钱更重要，项目跑起来不能三天两头抽风。

如果你也在开发中重度使用 API，这里有几条血泪建议：

总之，技术选型不仅是选模型，更是选“路费”。别让不合理的缓存计费吃掉了你的项目利润，认准那些逻辑清晰、服务稳定的老牌站点才是正道。