不限 Token 也能省钱？聊聊如何暴力提升 API 缓存命中率

最近在折腾大模型 API 的时候，发现一个很多开发者容易忽视的省钱利器——缓存命中率。

大家都在纠结 Token 计费，或者苦哈哈地压缩 Prompt 长度，但其实有一个更聪明的玩法：不论你输入多少 Token，只要命中了缓存，这部分往往是免单或者极低费用的。特别是对于那些动辄长篇大论、频繁调用 AI 的项目来说，这简直就是“羊毛”里的战斗机。

今天就来聊聊，在不限制 Token 数量的情况下，我们到底该怎么“暴力”提升这个命中率。

简单来说，大模型 API 并不是每次都从头开始计算你发的每一个字。现在的 API（以 OpenAI 为代表的很多厂商）都支持 Prompt Caching（提示词缓存）。如果你的请求头部有一大段内容之前已经发过，系统直接从缓存里调取结果，而不用再跑一遍昂贵的模型计算。

缓存概念示意图

利用缓存机制，重复的内容只需计算一次，大幅节省成本和时间。

这就好比你点了一份套餐，每次都只要换个小菜，主菜厨房直接上现成的，速度飞快还便宜。

对于那种“不限 Token”的项目，我们虽然不怕字数多，但怕的是重复计算。如果每次都把庞大的系统设定、知识库背景重新算一遍，那成本可就控不住了。所以，我们的唯一目标就是：让重复的部分永远只算一次。

要提高命中率，关键不在于你发了什么，而在于你发的顺序和结构。

很多同学喜欢把 System Message（系统提示词）和 User Message（用户输入）混在一起动态生成，或者每次请求都在微调 System Message。这是缓存的大忌！

正确的姿势是： 将所有的 System Message 放在最最开始，并且确保这部分内容是绝对静态的，甚至不要包含动态的时间戳（除非那是必须的变量）。只要头部完全匹配，缓存就能生效。

如果你有大量的背景介绍、角色设定、规则约束，请务必把它们牢牢“焊死”在 Prompt 的最前面。这部分越长，命中一次缓存省下的 Token 就越惊人。

不要因为用户输入不一样，就随意改变你整体 Prompt 的排版结构。比如，你有一个 JSON 格式的输入，不要今天用双引号，明天用单引号。

代码优化示例：

假设你在构建一个代码分析助手，你的 Prompt 结构应该是这样的：

[系统角色设定] (这部分绝对不变，几千字也行)
---
[历史对话上下文] (尽量复用相同的格式)
---
[用户当前的输入]

只要你保持 [系统角色设定] 这一部分在每次 API 调用时都一模一样，哪怕用户后面问的内容千奇百怪，这一大块的费用都可以直接省掉。

如果你用的是 RAG（检索增强生成），经常会从向量数据库里捞出一段文档塞进 Prompt 里。这时候，怎么塞也是有讲究的。

尽量将检索到的文档内容进行标准化清洗（比如去除多余的空格、统一标点符号），然后再拼接。如果两个问题检索到了同一篇文档，但因为换行符不同导致缓存未命中，那简直是亏大了。

有些朋友照着做了，却发现命中率还是上不去，通常是因为踩了以下几个坑：

乱序问题： API 的缓存机制通常是基于前缀匹配的。如果你先把“用户问题”放前面，再把“系统设定”放后面，那缓存率基本为 0。顺序不要乱！
隐形字符： 有时候代码生成或者 JSON 处理会不小心带上一些不可见的字符，导致文本虽然肉眼看一样，但机器识别是不同的。记得对输入进行 Trim 处理。
动态变量污染头部： 别把 {current_date} 这种动态生成的变量放在 System Message 的第一句。把它往后挪挪，别让它破坏了前面的静态特征。

提升缓存命中率，本质上就是**“对抗变数，稳住常量”**。

在不限制 Token 的场景下，我们更要利用这一点，把那些昂贵、固定的“大脑预设”通过缓存免费送给模型。这不仅是技术优化的方向，更是控制成本、提升效率的新风向。下次写 Prompt 的时候，记得先把那块万年不变的“石头”搬过去垫底！