Gemini 1.5 Flash 做到了！纯视觉 Agent 横扫 Odysseys 榜单第一

最近 AI 界的热点大多集中在各种“大模型”的参数比拼上，但真正能落地干活的“Agent（智能体）”表现如何，才是检验实力的试金石。这不，最近一个名为 Odysseys 的长程 Web Agent 评估基准更新了榜单，结果有点让人意外——并非传闻中参数爆炸的 GPT-4.1o 或者某个闭源神秘模型，而是 Google 的 Gemini 1.5 Flash 驱动的纯视觉 Agent 拿下了第一。

1. 什么是 Odysseys 评估？

传统的 AI 测评大多是些简单的选择题或问答，但这无法衡量一个 AI 能不能帮你在电脑上真正“干活”。Odysseys 就是为了解决这个问题而生的。

它是一个专门针对 长程 Web Agent 的基准测试。想象一下，你让 AI 帮你“策划一次旅行并预订所有机票酒店”，或者“在网上查找特定配置的最便宜显卡并下单”。这就涉及到多个步骤、长时间跨度、以及与网页界面的复杂交互。

Odysseys 包含了 200 个真实世界的网络任务，跨越了旅游、购物、管理等多个领域。评分也不是看它“答没答对”，而是基于一套精细的评分标准，看它最终能不能把事情干成。

2. 为什么 Gemini 1.5 Flash 拿第一很炸裂？

通常我们觉得，要想 Agent 聪明，必须得用参数量最大、脑子最聪明（推理能力最强）的模型，比如 GPT-4o 或 Claude 3.5 Sonnet。但这次拿第一的是 Gemini 1.5 Flash，它主打的是“快”和“性价比”，并非纯粹的逻辑推理怪兽。

更有意思的是，这个夺冠的 Agent 是 “纯视觉” 的。

普通 Agent 的做法： 读取网页的 HTML 代码，解析 DOM 树结构（获取 ID、Class、文本标签等），像程序员看代码一样理解页面。
纯视觉 Agent 的做法： 直接“看”屏幕截图。它只能看到像素，就像一个人类用户坐在屏幕前一样，通过识别按钮、图片和布局来决定下一步点什么。

Gemini 1.5 Flash 能把“快”和“强”结合起来，在不读取底层代码的情况下，仅靠“看”就超越了那些拥有代码特权的大模型，这说明其多模态理解能力和对视觉 UI 的交互逻辑已经达到了一个新的高度。

3. 深度分析：纯视觉路线的逆袭

在技术圈里，关于 Agent 该用“视觉”还是“DOM 树”一直有争论。

DOM 派认为：代码里包含了精确的语义，直接解析 DOM 更准，不容易看错按钮位置，且输入 Token 消耗更少。
视觉派认为：很多现代网页应用是复杂的 Canvas 渲染或者加密混淆的 DOM，根本读不出有用信息。而且，真正的通用 Agent 应该像人一样操作，不管是网页、手机 APP 还是虚拟机窗口，都应该能看懂。

Odysseys 的这次结果，无疑是视觉派的一次巨大胜利。它证明了随着多模态模型能力的增强，直接模拟人类视觉交互不仅可行，而且在处理复杂页面时可能更具鲁棒性。这也意味着未来的 Agent 开发成本可能会降低——不需要费劲去适配每个网站的 DOM 结构了，直接丢截图给模型让它自己悟。

4. 开发者：小白也能上手测测你的 Agent

如果你对跑 Agent 或者测试模型性能感兴趣，Odysseys 是个非常好的练兵场。

访问官网： 直接搜索 Odysseys Bench 就能找到它们的官网或者 GitHub。
看榜单： 打开 Leaderboard 页面，你会看到各个模型在 200 个任务上的得分排名。
勾选 CUA only： 有个细节要注意，在筛选 Agent 类型时，记得勾选右上角的 “CUA only” (Computer Use Agent only)。这条筛选很重要，因为它排除了那些通过作弊（比如直接调用 API 获取答案）的选手，只保留真正模拟计算机操作的视觉 Agent，这样对比才公平。

5. 这对行业意味着什么？

这次评测传递了一个明确的信号：速度和效率与高能力并不矛盾。

过去大家觉得要干复杂的活必须上最贵、最慢的模型，但现在 Gemini 1.5 Flash 证明了“轻量级”模型配合好的视觉架构，同样能在复杂的任务中拿到 SOTA（最佳成绩）。这对于想降低 AI 应用成本的创业者来说，绝对是个好消息。未来的 Agent 可能不再需要巨大的推理成本，就能帮你流畅地完成复杂的网页操作任务。

总之，如果你在关注 AI Agent 的新风向，这个榜单值得你加入收藏夹定期刷一刷，看看到底是哪家的模型更能胜任“数字打工仔”的角色。

Odysseys Leaderboard 显示 Gemini 1.5 Flash 驱动的纯视觉 Agent 排名第一

Odysseys 评估基准榜单：Gemini 1.5 Flash 驱动的纯视觉 Agent 夺得第一

Gemini 1.5 Flash 做到了！纯视觉 Agent 横扫 Odysseys 榜单第一

1. 什么是 Odysseys 评估？

2. 为什么 Gemini 1.5 Flash 拿第一很炸裂？

3. 深度分析：纯视觉路线的逆袭

4. 开发者：小白也能上手测测你的 Agent

5. 这对行业意味着什么？

评论已关闭

最新文章

最近回复

分类

归档

其它