给GLM装个“天眼”？这个技能让前端调试效率翻倍！

最近在折腾 AI 辅助开发的时候，发现了一个特别有意思的玩法，必须来给大家安利一波！

我们知道，很多大模型（比如 GLM）虽然在文本处理上很强，但在“看图”这块，要么是原生不支持，要么是理解能力一般。但是，前端开发又离不开对页面视觉效果的调试。每次改个样式，都要自己肉眼去比对，或者把截图扔给 Vision 模型分析，流程总显得有点割裂。

GLM调用webapp-testing技能的示意图

通过webapp-testing技能，GLM实现了调用浏览器进行页面截图和元素分析的能力。

今天要说的这个东西，简单来说就是给 GLM 装了一个“天眼”，实现了（伪）看图能力，极大地优化了前端调试的工作流。

核心其实是一个叫 “webapp-testing” 的技能（Skill）。别被名字迷惑了，它不仅仅是用来测试 Web App 的，它的绝活在于能让 GLM 模型自己调用浏览器去“看”页面。

严格意义上讲，这不算 GLM 真的拥有了视觉模组，而是一种“曲线救国”的方案：它可以让模型自动在浏览器里打开指定页面，进行截图，然后读取页面上的 DOM 元素信息。

整个流程其实非常智能，大概分为这几步：

自主调用：当你向 GLM 提出关于页面样式或布局的问题时，它会判断需要“看”一眼页面，然后自动触发这个 Skill。
浏览器操作：Skill 会在后台控制浏览器，访问你当前的本地服务或者线上 URL。
智能截图：浏览器加载完毕后，它会自动截取当前页面的屏幕截图。这就相当于给模型拍了一张“照片”。
元素提取（重点来了！）：除了截图，最硬核的是它还能结合 Zcode 的元素能力。这意味模型不只是拿到一张死图，还能获取页面具体元素的位置、层级和代码结构。

以前我们怎么改 Bug？

现在有了这个装备后：

“AI，帮我看看这个登录框为什么在移动端显示不全？”
GLM 会操控浏览器打开页面，截图一看，再结合 DOM 分析：“我看了一下截图，发现是父容器的 overflow 属性设置成了 hidden，建议改成 auto 或调整宽度。”

这个“webapp-testing”技能，本质上是打通了 LLM（大语言模型） 和 浏览器环境 之间的壁垒。虽然 GLM 本身还是那个只懂文本的 GLM，但这套工具链赋予了它感知图形界面的能力。

对于经常需要写 CSS、修 UI Bug 或者做自动化测试的朋友来说，这绝对是一个能立马提升幸福感的“神器”。如果你也在为前端调试头疼，不妨试试让 GLM 装上这个“天眼”！