微信推出新视觉识别模型,UI元素定位精准,自动化操作或迎来新变革
最近科技圈有消息传出,微信团队内部新推出了一款视觉识别模型,这个模型的最大特点就是能“精准定位UI元素”。乍一听可能觉得有点抽象,但仔细琢磨一下,这玩意儿在智能客服和手机自动化操作这两个领域,绝对算得上是一个“神器”级别的更新。
什么是UI元素识别?
AI识别手机屏幕上的UI元素,如按钮和输入框
简单来说,以前我们说AI看图,通常是识别“这是一只猫”或者“这是一辆车”。但UI元素识别不一样,它要求AI能看懂手机屏幕。它需要知道屏幕上哪个区域是“确认”按钮,哪个是“取消”选项,或者哪里是输入框,哪里是弹出的广告关闭按钮。
微信这次放出来的模型,据说是专门针对界面结构进行优化的。不管是安卓还是iOS,只要屏幕上有图形界面,它就能像人眼一样把那些可点击的区域框出来,甚至能理解它们的层级关系。
智能客服通过截图精准标注退款入口位置
智能客服的进化
在智能客服领域,这个模型能解决一个大痛点。以前用户给客服发一张截图,传统的AI可能只能分析图片里的文字,或者瞎猜图片内容。有了这个模型,客服机器人就能直接看懂用户正在操作哪个APP的哪个界面。
比如用户抱怨“我找不到退款入口”,只要发张截图,AI就能直接在图上标注出“退款按钮”在哪儿,甚至生成一段引导语:“请点击屏幕左下角的这个蓝色按钮”。这种体验比纯文字问答要直观得多,客服效率也能成倍提升。
自动化操作的新风向
对于喜欢折腾手机自动化、脚本或者RPA(机器人流程自动化)的朋友来说,这绝对是个好消息。
以前写自动化脚本,最头疼的就是定位元素。要么依赖无障碍服务(AccessbilityService),要么只能通过坐标硬编码,一旦换个手机分辨率或者APP更新了UI,脚本全得重写。如果用图像识别,以前的方式是“找图”,也就是匹配整个截图,稍微有点干扰或者色差就GG。
现在有了基于UI元素的视觉模型,脚本可以通过语义去理解界面。比如告诉AI“点击那个带加号的圆形按钮”,它就能精准识别并执行,而不需要你去管这个按钮在屏幕的什么坐标位置。这意味着自动化的兼容性和稳定性会有质的飞跃。
技术展望与玩法
虽然目前关于模型的具体参数和开源程度还没有完全公开,但可以预见的是,这会带动一波“视觉自动化”的新玩法。结合像ADB或者各种自动化框架,我们以后可能只需要描述操作逻辑,剩下的“找按钮”、“判断页面”都交给模型去处理。
对于普通用户,这意味着以后可能会出现更傻瓜化的手机工具;对于开发者,这则是降低自动化门槛的一项关键技术。大家不妨把这个风向记下来,等后续更多细节流出或者正式接入,绝对是提升效率的一把好手。

评论已关闭