把文本“喂”给多模态模型？只需一张图，Token消耗立减60%

最近在技术圈子里逛，发现了一个非常有意思的“羊毛”玩法，说是能把我们喂给大模型的上下文文本转换成图片，然后让多模态模型通过“看图”的方式来理解内容，据说能直接把 Token 消耗砍掉 60%。

作为一个天天和各种 API 打交道、看到账单就心疼的博主，这个消息瞬间抓住了我的眼球。省 60% 的成本？这要是真的，那简直是为我们这些贫民窟开发者量身定做的神技啊。于是我赶紧去扒了扒，这事儿到底靠不靠谱。

多模态模型文本转图片原理示意图

将大段文本转换为图片，利用多模态模型的视觉能力进行理解，可以显著降低 Token 消耗。

这个玩法的核心逻辑其实非常简单，甚至可以说有点“返璞归真”。我们平时把大段大段的文本扔给 LLM（比如 GPT-4），是按字数（Token）计费的，字越多越贵。

而这个工具（GitHub 上叫 pxpipe）的做法是：先把你那几千字的上下文渲染成一张长图片（或者几张图），然后直接把图片扔给支持视觉能力的大模型（比如 GPT-4o、Claude 3.5 Sonnet 等）。

这时候，模型就不怎么“读”字了，而是在“看”图。由于多模态模型对图片的定价策略和对文本的不同，在某些情况下，视觉理解的成本远低于处理同量级文本 Token 的成本。

GPT-4o 模型识别图片内容示意图

GPT-4o 具备强大的视觉 OCR 能力，能够精准识别图片中的文字信息。

这就得聊聊大厂商的定价策略了。目前主流的多模态模型，对于图片输入的计费通常是把图片切碎成“Tile”（瓦片）来算的。不管图片里密集了多少文字，只要图片分辨率控制得当，其固定的费率可能比你把这段文字逐字逐句喂给模型要便宜得多。

举个不太严谨的例子：假设你有 1 万字的说明书，直接发文本可能消耗 1.3 万个 Token；但如果你把它转成一张清晰的图片发过去，模型可能只需要处理几个 Tile 的量，换算下来 Token 数量可能就只有几千个。

尤其是像 GPT-4o 这样的模型，视觉能力极强，OCR（光学字符识别）准确率极高，它“看”懂图片里的字，几乎和你直接发文本给它读到没有区别，但账单却能薄不少。

为了验证效果，我特意找了那个叫 teamchong/pxpipe 的项目试了试。它的流程大概是这样的：

体验下来，这个转换过程非常快，生成的图片字迹清晰，排版工整，完全不影响模型的阅读。在测试中，对于长文档总结、长代码分析等场景，模型通过图片给出的反馈质量，和直接输入文本几乎没有差别。

很多朋友可能会问：“这玩意儿在 GPT-4o 上好用，那对于我们国内的 Kimi、通义千问之类的多模态模型好用吗？”

这就涉及到了两个关键点：

视觉能力：国产模型现在的 OCR 能力其实都不错，识别图片里的文字基本问题不大。理论上，只要模型支持图片输入，这套流程就是通的。
计费策略：这才是最关键的！不同厂商的定价天差地别。如果某国产模型对图片输入的定价非常高（比如按图片尺寸收费，且单价昂贵），那你可能不但省不下钱，反而花得更多。所以，如果你想在 Kimi 或其他国产模型上玩这套，建议先拿个小文本做做 A/B 测试，算算账。

在我看来，这个玩法目前非常适合以下几类场景：

当然，它也有局限。比如你需要非常精确到某字符的微调指令，或者涉及到代码执行前必须要有纯净文本的场景，转图可能会引入一点点识别误差（虽然现在 GPT-4o 几乎没有误差）。

总的来说，pxpipe 这种“文本图像化”的思路，确实给了我们一个新的降本增效视角。在这个 Token 越来越贵的时代，学会这种“作弊”技巧，或许能帮你的项目省下一大笔服务器开销。

如果你也想试试，不妨去 GitHub 搜一下这个项目，拿自己的账单测一测，看看能不能薅到这 60% 的羊毛。