我也做了一个Coding Agent Harness:实测一个月后的真实感受与成本揭秘
最近这一个月,我没有像往常一样把时间花在单纯的写代码上,而是做了一个实验:把自己从繁琐的编码工作中抽离出来,让 AI 替我跑长线任务。
为此,我开发了一个 Coding Agent Harness(你可以把它想象成一个代码 Agent 的“驾驭系统”)。今天不聊虚的,直接分享一下这一个月我“喂”给它多少 Token、跑出了什么样的代码,以及这套系统到底适不适合普通开发者。
我开发了这个 Coding Agent Harness 系统,专门用于驾驭 AI 跑长线编码任务。
什么是 Agent Harness?它解决了什么痛点?
现在的 Claude、GPT-4 写小代码片段很溜,但你一旦让它去跑一个涉及几十个文件、需要分步执行的大型任务,它很容易“智障”化——写着写着就忘了最初的目标,或者陷入死循环。
我做的这个 Harness,核心就是给 AI 套上一根“缰绳”。
Harness 的核心机制:严格的规划执行与内置的代码审查流程。
- 严格的规划执行: 它不只是接收指令,而是把一个大任务拆解成严格执行的步骤,确保每一步都在轨道上,不会跑偏。
- 代码校对与领域知识注入: 最狠的一点是,它内置了严格的代码校对机制。这就好比你有一个代码审查员在旁边,写的每一行代码都要过审。同时,我会把特定的编码领域知识“注入”进去,让它懂架构。
经过多轮自审和修复后的代码,Bug 率确实低得惊人。这比直接把需求扔给 Claude 或 Copilot,然后自己再去 Debug 要靠谱得多。
真实成本:烧钱吗?非常烧!
大家最关心的肯定是成本问题。既然是跑长线任务,Token 消耗肯定不是个小数目。
我这一个月的测试数据比较吓人:
-
Token 消耗: 大约消耗了 1 万个 Codex(OpenAI 的代码接口),Claude Code 也要消耗一些。
-
预估费用: 折算成人民币,大概在 3,000 到 5,000 美元(约合 2-3 万人民币)左右。注意,这还是在只有 1 个 200 美元订阅额度的情况下跑出来的,说明我确实是在高频、高强度地压测它。
人机协作模式:AI 负责成为顶级工程师执行代码,人负责把握架构方向。
- 时间成本: 一个大型任务,它往往需要跑十几个小时,甚至几天才能完全跑通。这期间它是在不停地尝试、自审、修复。
结论: 这不是给个人开发者写小脚本用的工具,它的场景在于中大型项目的架构落地和复杂逻辑实现。
人机协作的真相:AI 不能替代架构师
在测试过程中,我发现一个很有意思的现象:Agent 无法自我进化,或者说无法提供深度的洞察。
目前的 LLM,哪怕是最强模型,它的“初步洞察”都比较浅显。它能帮你写出很好的代码(Carry out implementation),但它无法告诉你下一步该怎么做,或者哪里有架构隐患。
所以,这个 Harness 的作用,是放大“人”的能力。
-
你的角色: 架构师、方向把控者。你需要懂得架构设计,给出明确的 To-Do List 和深刻的洞察。
-
Agent 的角色: 顶级工程师。它负责把这些方向一丝不苟地执行下去,不偷懒,不跑偏,且自我纠错。
光做实验验证,我就花了半个月时间。如果你懂架构,这套系统确实能让你像打了鸡血一样迭代产品。
关于产品形态:为什么要做免费版?
目前这个 Harness 产品已经相对成熟了,我提供了免费版本,虽然不是完全开源,但核心功能是全开的。
-
为什么不完全开源? 核心在于我希望保持产品的迭代路线清晰,并且未来计划类似 FDE(某特定领域开发环境)那样,做行业和领域的定制化服务。
-
免费版能干嘛? 对于个人开发者或小团队,免费版的功能完全够用,你可以用它来处理那些令人头秃的长线编码任务。
如果你也对 AI 自动化编程、长线任务落地感兴趣,不妨试试这个思路。AI 时代的编程,可能真的不再是人写代码,而是人写“如何让代码被自动生成的逻辑”。
评论已关闭