我也做了一个Coding Agent Harness：实测一个月后的真实感受与成本揭秘

最近这一个月，我没有像往常一样把时间花在单纯的写代码上，而是做了一个实验：把自己从繁琐的编码工作中抽离出来，让 AI 替我跑长线任务。

为此，我开发了一个 Coding Agent Harness（你可以把它想象成一个代码 Agent 的“驾驭系统”）。今天不聊虚的，直接分享一下这一个月我“喂”给它多少 Token、跑出了什么样的代码，以及这套系统到底适不适合普通开发者。

Coding Agent Harness 产品界面展示

我开发了这个 Coding Agent Harness 系统，专门用于驾驭 AI 跑长线编码任务。

现在的 Claude、GPT-4 写小代码片段很溜，但你一旦让它去跑一个涉及几十个文件、需要分步执行的大型任务，它很容易“智障”化——写着写着就忘了最初的目标，或者陷入死循环。

我做的这个 Harness，核心就是给 AI 套上一根“缰绳”。

代码校对与规划执行流程示意图

Harness 的核心机制：严格的规划执行与内置的代码审查流程。

严格的规划执行： 它不只是接收指令，而是把一个大任务拆解成严格执行的步骤，确保每一步都在轨道上，不会跑偏。
代码校对与领域知识注入： 最狠的一点是，它内置了严格的代码校对机制。这就好比你有一个代码审查员在旁边，写的每一行代码都要过审。同时，我会把特定的编码领域知识“注入”进去，让它懂架构。

经过多轮自审和修复后的代码，Bug 率确实低得惊人。这比直接把需求扔给 Claude 或 Copilot，然后自己再去 Debug 要靠谱得多。

大家最关心的肯定是成本问题。既然是跑长线任务，Token 消耗肯定不是个小数目。

我这一个月的测试数据比较吓人：

Token 消耗： 大约消耗了 1 万个 Codex（OpenAI 的代码接口），Claude Code 也要消耗一些。
预估费用： 折算成人民币，大概在 3,000 到 5,000 美元（约合 2-3 万人民币）左右。注意，这还是在只有 1 个 200 美元订阅额度的情况下跑出来的，说明我确实是在高频、高强度地压测它。

人机协作架构示意图

人机协作模式：AI 负责成为顶级工程师执行代码，人负责把握架构方向。

结论： 这不是给个人开发者写小脚本用的工具，它的场景在于中大型项目的架构落地和复杂逻辑实现。

在测试过程中，我发现一个很有意思的现象：Agent 无法自我进化，或者说无法提供深度的洞察。

目前的 LLM，哪怕是最强模型，它的“初步洞察”都比较浅显。它能帮你写出很好的代码（Carry out implementation），但它无法告诉你下一步该怎么做，或者哪里有架构隐患。

所以，这个 Harness 的作用，是放大“人”的能力。

光做实验验证，我就花了半个月时间。如果你懂架构，这套系统确实能让你像打了鸡血一样迭代产品。

目前这个 Harness 产品已经相对成熟了，我提供了免费版本，虽然不是完全开源，但核心功能是全开的。

如果你也对 AI 自动化编程、长线任务落地感兴趣，不妨试试这个思路。AI 时代的编程，可能真的不再是人写代码，而是人写“如何让代码被自动生成的逻辑”。