Gemini 1.5 Flash 做到了!纯视觉 Agent 横扫 Odysseys 榜单第一
最近 AI 界的热点大多集中在各种“大模型”的参数比拼上,但真正能落地干活的“Agent(智能体)”表现如何,才是检验实力的试金石。这不,最近一个名为 Odysseys 的长程 Web Agent 评估基准更新了榜单,结果有点让人意外——并非传闻中参数爆炸的 GPT-4.1o 或者某个闭源神秘模型,而是 Google 的 Gemini 1.5 Flash 驱动的纯视觉 Agent 拿下了第一。
1. 什么是 Odysseys 评估?
传统的 AI 测评大多是些简单的选择题或问答,但这无法衡量一个 AI 能不能帮你在电脑上真正“干活”。Odysseys 就是为了解决这个问题而生的。
它是一个专门针对 长程 Web Agent 的基准测试。想象一下,你让 AI 帮你“策划一次旅行并预订所有机票酒店”,或者“在网上查找特定配置的最便宜显卡并下单”。这就涉及到多个步骤、长时间跨度、以及与网页界面的复杂交互。
Odysseys 包含了 200 个真实世界的网络任务,跨越了旅游、购物、管理等多个领域。评分也不是看它“答没答对”,而是基于一套精细的评分标准,看它最终能不能把事情干成。
2. 为什么 Gemini 1.5 Flash 拿第一很炸裂?
通常我们觉得,要想 Agent 聪明,必须得用参数量最大、脑子最聪明(推理能力最强)的模型,比如 GPT-4o 或 Claude 3.5 Sonnet。但这次拿第一的是 Gemini 1.5 Flash,它主打的是“快”和“性价比”,并非纯粹的逻辑推理怪兽。
更有意思的是,这个夺冠的 Agent 是 “纯视觉” 的。
- 普通 Agent 的做法: 读取网页的 HTML 代码,解析 DOM 树结构(获取 ID、Class、文本标签等),像程序员看代码一样理解页面。
- 纯视觉 Agent 的做法: 直接“看”屏幕截图。它只能看到像素,就像一个人类用户坐在屏幕前一样,通过识别按钮、图片和布局来决定下一步点什么。
Gemini 1.5 Flash 能把“快”和“强”结合起来,在不读取底层代码的情况下,仅靠“看”就超越了那些拥有代码特权的大模型,这说明其多模态理解能力和对视觉 UI 的交互逻辑已经达到了一个新的高度。
3. 深度分析:纯视觉路线的逆袭
在技术圈里,关于 Agent 该用“视觉”还是“DOM 树”一直有争论。
- DOM 派认为:代码里包含了精确的语义,直接解析 DOM 更准,不容易看错按钮位置,且输入 Token 消耗更少。
- 视觉派认为:很多现代网页应用是复杂的 Canvas 渲染或者加密混淆的 DOM,根本读不出有用信息。而且,真正的通用 Agent 应该像人一样操作,不管是网页、手机 APP 还是虚拟机窗口,都应该能看懂。
Odysseys 的这次结果,无疑是视觉派的一次巨大胜利。它证明了随着多模态模型能力的增强,直接模拟人类视觉交互不仅可行,而且在处理复杂页面时可能更具鲁棒性。这也意味着未来的 Agent 开发成本可能会降低——不需要费劲去适配每个网站的 DOM 结构了,直接丢截图给模型让它自己悟。
4. 开发者:小白也能上手测测你的 Agent
如果你对跑 Agent 或者测试模型性能感兴趣,Odysseys 是个非常好的练兵场。
- 访问官网: 直接搜索 Odysseys Bench 就能找到它们的官网或者 GitHub。
- 看榜单: 打开 Leaderboard 页面,你会看到各个模型在 200 个任务上的得分排名。
- 勾选 CUA only: 有个细节要注意,在筛选 Agent 类型时,记得勾选右上角的 “CUA only” (Computer Use Agent only)。这条筛选很重要,因为它排除了那些通过作弊(比如直接调用 API 获取答案)的选手,只保留真正模拟计算机操作的视觉 Agent,这样对比才公平。
5. 这对行业意味着什么?
这次评测传递了一个明确的信号:速度和效率与高能力并不矛盾。
过去大家觉得要干复杂的活必须上最贵、最慢的模型,但现在 Gemini 1.5 Flash 证明了“轻量级”模型配合好的视觉架构,同样能在复杂的任务中拿到 SOTA(最佳成绩)。这对于想降低 AI 应用成本的创业者来说,绝对是个好消息。未来的 Agent 可能不再需要巨大的推理成本,就能帮你流畅地完成复杂的网页操作任务。
总之,如果你在关注 AI Agent 的新风向,这个榜单值得你加入收藏夹定期刷一刷,看看到底是哪家的模型更能胜任“数字打工仔”的角色。
Odysseys 评估基准榜单:Gemini 1.5 Flash 驱动的纯视觉 Agent 夺得第一
评论已关闭