AI 测试软件也爱听白噪音?Codex Computer Use 上手实测
当我们让 AI 操作电脑测试软件,它第一件事竟然是放歌?
随着大模型的能力边界不断拓展,纯文本的对话已经无法满足技术极客们的胃口了。现在最火的玩法是什么?当然是让 AI 直接接管电脑,像人类一样“动鼠标、敲键盘”。这不,最近我就试着用 Codex Computer Use 来跑一个软件测试,结果第一幕就让我乐了。
AI在测试软件时,先打开了白噪音播放器
一段让人会心一笑的开场
按照常规逻辑,人类测试员拿到任务,通常是先安装软件、打开界面,然后开始点点点。但当我把任务丢给这个 Codex 计算机智能体时,屏幕上的鼠标并没有直奔测试目标而去,而是熟练地打开了一个白噪音网页。
配图里显示的就是这一幕:原本严肃的测试环境,瞬间充满了“白噪音”。“AI 工作的时候也需要白噪音啊” —— 这大概是那天网上最有趣的评论。虽然我们知道这只是 AI 在执行某种上下文无关的随机探索,或者是被某些环境因素误导,但这种“拟人化”的行为确实让人觉得它活过来了。
到底什么是 Codex Computer Use?
抛开这个有趣的插曲,我们得聊聊正事儿。Codex Computer Use 本质上是一种赋能大模型直接与计算机桌面环境交互的技术。
这就好比以前你只能对着一个只听不懂画的“瞎子”下指令,现在它终于有了“眼睛”和“手”。它可以:
- 感知屏幕:通过视觉识别界面上的按钮、菜单和弹窗。
- 模拟操作:控制鼠标点击、移动,以及键盘输入。
- 任务规划:将“测试这个软件”的大目标,拆解成“打开浏览器 -> 搜索软件 -> 下载安装 -> 运行”的一系列动作。
这次测试中,它能在纷繁复杂的桌面环境中找到白噪音播放器,其实反向证明了它具备极强的视觉识别和网页操作能力。只不过,它给自己加了个“摸鱼”的心得。
这种技术到底有什么用?
你可能会觉得,这看着好玩,但除了花式摸鱼还能干啥?其实这种 Agent(智能体)+ GUI(图形用户界面) 的技术路线,正在改变很多领域的游戏规则:
- 自动化测试的终极形态:以前写自动化脚本要用 Selenium、PyAutoGUI,还得适配各种分辨率。现在直接让看图说话的 AI 来测试,它甚至能识别出 Bug 的“丑陋程度”,写出更自然的测试报告。
- RPA 流程自动化:给老板填表、从 ERP 系统导数据、跨软件搬运信息。以前需要开发专门的 RPA 机器人,现在或许只需要一句提示词:“帮我把昨天 CRM 里的销售记录导出到 Excel 里。”
- 技术小白的新工具:不懂代码?没问题。告诉 AI “帮我配置一下 Python 开发环境”,它就打开命令行、下载包、改环境变量,你端着咖啡看着就行。
遇到问题怎么办?
虽然愿景很美好,但目前的智能体在实际操作中依然会遇到不少坑,比如:
- 操作死循环:点不到那个按钮就一直点,或者像这次一样被奇怪的页面吸引注意力。
- 上下文丢失:弹窗一多,它可能就忘了原本在干嘛。
解决思路: 如果你在试用这类工具遇到卡顿或乱跑,尝试给它更精准的“思维链”提示。比如明确告诉它:“如果遇到弹窗广告,请直接关闭,不要点击内容。”限制它的搜索范围,能大大提高成功率。
结语
AI 打开白噪音这一幕,或许只是一个有趣的意外,但它标志着我们正从“聊天机器”时代迈向“操作机器”时代。谁知道呢,也许未来的 AI 真的会在开始干活前,先给自己端上一杯咖啡,放上一段 Lo-Fi 音乐。
如果你也对这种能控制电脑的 AI 感兴趣,不妨多去关注一下这类技术的最新进展,指不定哪天就能解放你的双手了。
评论已关闭