在Windows下给Claude Code装上“手柄”:Computer Use实操指南

最近折腾 Claude Code 的时候发现一个问题:虽然它能写代码能跑命令,但想让它直接操作鼠标键盘(比如自动点按钮、填表单)还是有点难。官方的 Computer Use 功能那是 GPT-4 的专属“特技”,但我想着,能不能把这个能力“移植”到本地的 Claude Code 或者其他 MCP 兼容的 Agent 上用呢?

经过一番摸索,还真搞定了。今天就来分享一下这个“魔改”过程,原理其实很简单,但实际效果却相当惊喜。

🛠 核心原理:把 EXE 当成服务用

先说结论:这套方案的核心思路,就是把 Anthropic 官方的 Computer Use 核心程序(本质上是一个独立的 exe 文件),通过 MCP(Model Context Protocol)协议封装成一个本地服务。

在Windows下的Claude Code中使用Computer Use示意图

在Windows下的Claude Code中使用Computer Use 前言 其实不止是Claude Code,理论上任何支持MCP的Agent都可以使用。

一旦封装完成,任何支持 MCP 协议的 Agent——不仅仅是 Claude Code,理论上只要走 MCP 的都能调用它。这意味着,你完全可以绕过 GPT 的限制,用 Mimo V2.5 Pro、DeepSeek 甚至其他本地模型来驱动桌面操作。

简单理解就是:Claude Code 负责思考“做什么”,后台的这个 EXE 负责具体去“点哪里”。

🚀 如何一键部署?

如果你不想深究架构,只想赶紧跑起来,那最简单的方法就是用现成的项目文件夹。

我做了一个整合包,里面包含了所有必要的依赖和核心 EXE 文件。在 Windows 下使用非常方便,不需要手动配置环境变量,也不需要复杂的安装步骤。

  1. 下载整合包:解压到本地任意目录。
  2. 运行初始化脚本:右键以管理员身份运行 setup.ps1
    • 这个脚本会自动帮你注册 MCP 服务器,配置好所有必要的 JSON 配置文件。
    • 注:如果你的 PowerShell 默认禁止运行脚本,可能需要先执行 Set-ExecutionPolicy RemoteSigned
  3. 重启 Claude Code:识别到新的 MCP 服务后,你就可以直接对话了,比如对它说“帮我把刚刚下载的文件移动到 D 盘”或者“打开记事本写个 Hello World”。

所有的配置细节都在项目自带的 README.md 里,遇到报错优先对照检查一遍。

⚙️ 那些不为人知的小细节

虽然大体流程很简单,但在测试过程中还是发现了一些有意思的细节,这里专门拎出来说说。

1. 模型表现差异巨大

很多朋友关心,非多模态模型(如 Mimo V2.5 Pro 或 DeepSeek)到底能不能用?

实测是可以用的。 但是,效果真的因模型而异:

  • GPT + Codex 原生:这是天花板,响应快,理解意图准,鼠标点击很少飘。
  • Claude Code + MCP 封装版:响应速度取决于你调用的模型。用 DeepSeek 时,感觉它在理解“当前界面”时会有点迟钝,有时候会出现鼠标悬停在错误位置的情况。
  • 为何会慢? 因为这多了一层 MCP 通信的开销,而且非多模态模型通过文本去描述视觉位置,确实不如原生多模态模型直接“看”得准。好消息是,如果你用的是支持多模态的模型,这套方案的准确率会显著提升。

2. 自定义那个烦人的蓝色横幅

如果你用过官方工具,应该知道屏幕上总会有一条蓝色的提示横幅,写着类似“AI正在控制你的电脑”的话。

在 Windows 下封装的版本中,这个是可以自定义的!打开 config\computer-use\config.json,找到相关字段,你可以随意修改上面的文字。比如改成摸鱼专用的“正在努力工作中”,或者更极客一点的 System overridden

🤔 值不值得折腾?

如果你正好在使用 Claude Code 作为本地主力编程助手,这个改造绝对值得一试。

它填补了本地 Agent 缺乏“实体操作能力”的空白。虽然目前受限于模型推理速度和 MCP 通信延迟,操作流畅度不如云端原生方案,但胜在隐私安全模型可控(你可以换任何你喜欢的开源模型)。

特别是对于那些想在本地搭建全自动工作流(比如自动整理文件、批量处理截图、定时填表)的朋友,这算是一个低成本、高可玩的切入点。

最后,虽然原理听起来有点“极客”,但有了 setup.ps1 这个脚本,门槛其实已经被削平了。下载、运行、开始玩,就这么简单。

标签: none

评论已关闭