当我们让 AI 操作电脑测试软件，它第一件事竟然是放歌？

随着大模型的能力边界不断拓展，纯文本的对话已经无法满足技术极客们的胃口了。现在最火的玩法是什么？当然是让 AI 直接接管电脑，像人类一样“动鼠标、敲键盘”。这不，最近我就试着用 Codex Computer Use 来跑一个软件测试，结果第一幕就让我乐了。

AI打开白噪音网页的界面截图

AI在测试软件时，先打开了白噪音播放器

一段让人会心一笑的开场

按照常规逻辑，人类测试员拿到任务，通常是先安装软件、打开界面，然后开始点点点。但当我把任务丢给这个 Codex 计算机智能体时，屏幕上的鼠标并没有直奔测试目标而去，而是熟练地打开了一个白噪音网页。

配图里显示的就是这一幕：原本严肃的测试环境，瞬间充满了“白噪音”。“AI 工作的时候也需要白噪音啊” —— 这大概是那天网上最有趣的评论。虽然我们知道这只是 AI 在执行某种上下文无关的随机探索，或者是被某些环境因素误导，但这种“拟人化”的行为确实让人觉得它活过来了。

抛开这个有趣的插曲，我们得聊聊正事儿。Codex Computer Use 本质上是一种赋能大模型直接与计算机桌面环境交互的技术。

这就好比以前你只能对着一个只听不懂画的“瞎子”下指令，现在它终于有了“眼睛”和“手”。它可以：

这次测试中，它能在纷繁复杂的桌面环境中找到白噪音播放器，其实反向证明了它具备极强的视觉识别和网页操作能力。只不过，它给自己加了个“摸鱼”的心得。

你可能会觉得，这看着好玩，但除了花式摸鱼还能干啥？其实这种 Agent（智能体）+ GUI（图形用户界面） 的技术路线，正在改变很多领域的游戏规则：

自动化测试的终极形态：以前写自动化脚本要用 Selenium、PyAutoGUI，还得适配各种分辨率。现在直接让看图说话的 AI 来测试，它甚至能识别出 Bug 的“丑陋程度”，写出更自然的测试报告。
RPA 流程自动化：给老板填表、从 ERP 系统导数据、跨软件搬运信息。以前需要开发专门的 RPA 机器人，现在或许只需要一句提示词：“帮我把昨天 CRM 里的销售记录导出到 Excel 里。”
技术小白的新工具：不懂代码？没问题。告诉 AI “帮我配置一下 Python 开发环境”，它就打开命令行、下载包、改环境变量，你端着咖啡看着就行。

虽然愿景很美好，但目前的智能体在实际操作中依然会遇到不少坑，比如：

解决思路： 如果你在试用这类工具遇到卡顿或乱跑，尝试给它更精准的“思维链”提示。比如明确告诉它：“如果遇到弹窗广告，请直接关闭，不要点击内容。”限制它的搜索范围，能大大提高成功率。

AI 打开白噪音这一幕，或许只是一个有趣的意外，但它标志着我们正从“聊天机器”时代迈向“操作机器”时代。谁知道呢，也许未来的 AI 真的会在开始干活前，先给自己端上一杯咖啡，放上一段 Lo-Fi 音乐。

如果你也对这种能控制电脑的 AI 感兴趣，不妨多去关注一下这类技术的最新进展，指不定哪天就能解放你的双手了。