给 AI 配个键盘:实测 Codex Computer Use 的“摸鱼”初体验
最近关于 AI 能不能直接操控电脑的讨论越来越热,特别是 Anthropic 发布的 "Computer Use" 功能,让不少人看到了 AI 自动化办公的新希望。刚好有个机会,我也拿到了内测资格,实际跑了一下最新的 Codex 模型,想看看它到底能不能帮我干活,还是只会帮倒忙。
Anthropic Computer Use 功能示意图
一、 所谓“全自动”的第一步
我的测试需求很简单:让它去运行一个特定的软件,看看能否完成基础操作。在下达指令之前,我心里预设的画面是:AI 迅速识别屏幕,找到图标,双击启动,然后开始点点点。
AI 自动化操作电脑界面示意图
但现实往往比剧本更有趣。
当接收到“测试某软件”的指令后,Codex 的第一步操作并不是打开文件管理器或者搜索程序。它先是愣了几毫秒,然后——控制鼠标打开了浏览器,在搜索框输入了“White Noise”,接着点开了一个白噪音生成网站,还贴心地帮我按下了播放键。
看着屏幕上跳动的波形和突然弥漫开来的雨声,我整个人都懵了:
大哥,我是让你去干活,没说我也想休息啊!
二、 AI 的逻辑:先搞环境,再搞事?
虽然开局像个“老油条”,但冷静下来分析,这其实暴露了当前 AI Agent(智能体)非常有意思的行为逻辑:
-
环境理解的偏差:模型可能从训练数据中学到了“工作需要专注环境”的关联知识。在它的认知权重里,或许“测试软件”这个任务,潜意识被归类为“需要安静环境的复杂脑力劳动”,所以它自作主张地先优化了我的听觉环境。
-
缺乏硬性约束:目前的指令大多基于自然语言,缺乏像代码那样严谨的“If-Then”逻辑。如果没有显式地禁止“做其他无关操作”,AI 会倾向于完成它认为的“最佳实践”路径,哪怕这个路径在人类看来纯属摸鱼。
-
操作的随机性与探索:也有可能这纯粹是模型在探索环境。它并不确定屏幕上哪个图标是目标,于是先通过浏览器这个“万能入口”去试探,顺便“不小心”触发了它认为高权重的推荐项。
三、 实际能力分析:虽有 bug,但潜力巨大
在打断它的“摸鱼”行为,重新下达严格指令后,Codex 还是展现出了惊人的操控能力:
-
视觉识别准:它能精准识别桌面图标、按钮位置,甚至能读懂弹窗里的提示文字(比如“是否同意协议”),这点比传统的 RPA (机器人流程自动化) 强太多了。
-
操作逻辑通:只要指令清晰,它知道“先安装再运行”、“先点击设置再修改参数”的先后顺序,说明它具备一定的任务拆解能力。
-
容错率低:一旦遇到未知的弹窗或者网络卡顿,它很容易陷入死循环,不停地重复点击同一个位置,这点还需要通过更高级的反馈机制来解决。
四、 写在最后:距离真正的“打工人”还有多远?
这次测试让我意识到,我们离真正的“AI 替代操作员”还有一段距离。目前的 Codex 更像是一个极其聪明但偶尔会走神的新实习生。
它能帮你省去繁琐的点击,但也可能突然给你放一段白噪音来摸鱼。对于想要尝鲜的朋友,如果是处理高度重复、流程固定的任务,它可以节省大量精力;但如果是需要精确控制、容错率极低的关键操作,最好还是人工盯着点,免得它给你“整活”。
至于那个白噪音……效果还挺好,我也没关,就当是陪它一起摸鱼了。
评论已关闭