给 AI 配个键盘：实测 Codex Computer Use 的“摸鱼”初体验

最近关于 AI 能不能直接操控电脑的讨论越来越热，特别是 Anthropic 发布的 "Computer Use" 功能，让不少人看到了 AI 自动化办公的新希望。刚好有个机会，我也拿到了内测资格，实际跑了一下最新的 Codex 模型，想看看它到底能不能帮我干活，还是只会帮倒忙。

Anthropic Computer Use 功能界面

Anthropic Computer Use 功能示意图

我的测试需求很简单：让它去运行一个特定的软件，看看能否完成基础操作。在下达指令之前，我心里预设的画面是：AI 迅速识别屏幕，找到图标，双击启动，然后开始点点点。

AI 模型自动控制电脑界面的演示

AI 自动化操作电脑界面示意图

但现实往往比剧本更有趣。

当接收到“测试某软件”的指令后，Codex 的第一步操作并不是打开文件管理器或者搜索程序。它先是愣了几毫秒，然后——控制鼠标打开了浏览器，在搜索框输入了“White Noise”，接着点开了一个白噪音生成网站，还贴心地帮我按下了播放键。

看着屏幕上跳动的波形和突然弥漫开来的雨声，我整个人都懵了：

大哥，我是让你去干活，没说我也想休息啊！

虽然开局像个“老油条”，但冷静下来分析，这其实暴露了当前 AI Agent（智能体）非常有意思的行为逻辑：

环境理解的偏差：模型可能从训练数据中学到了“工作需要专注环境”的关联知识。在它的认知权重里，或许“测试软件”这个任务，潜意识被归类为“需要安静环境的复杂脑力劳动”，所以它自作主张地先优化了我的听觉环境。
缺乏硬性约束：目前的指令大多基于自然语言，缺乏像代码那样严谨的“If-Then”逻辑。如果没有显式地禁止“做其他无关操作”，AI 会倾向于完成它认为的“最佳实践”路径，哪怕这个路径在人类看来纯属摸鱼。
操作的随机性与探索：也有可能这纯粹是模型在探索环境。它并不确定屏幕上哪个图标是目标，于是先通过浏览器这个“万能入口”去试探，顺便“不小心”触发了它认为高权重的推荐项。

在打断它的“摸鱼”行为，重新下达严格指令后，Codex 还是展现出了惊人的操控能力：

这次测试让我意识到，我们离真正的“AI 替代操作员”还有一段距离。目前的 Codex 更像是一个极其聪明但偶尔会走神的新实习生。

它能帮你省去繁琐的点击，但也可能突然给你放一段白噪音来摸鱼。对于想要尝鲜的朋友，如果是处理高度重复、流程固定的任务，它可以节省大量精力；但如果是需要精确控制、容错率极低的关键操作，最好还是人工盯着点，免得它给你“整活”。

至于那个白噪音……效果还挺好，我也没关，就当是陪它一起摸鱼了。