UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning

Liangyu Chen, Hanzhang Zhou, Chenglin Cai, Jianan Zhang, Panrong Tong, Quyu Kong, Xu Zhang, Chen Liu, Yuqi Liu, Wenxuan Wang, Yue Wang, Qin Jin, Steven HOI 2025-10-23
GUI GroundingInstruction-as-ReasoningMulti-Perspective ReasoningGRPOGUI AgentVision-Language Model

一句话总结

提出 Instruction-as-Reasoning 范式,将 GUI grounding 中的自然语言指令从静态输入升级为动态推理路径,通过 SFT+GRPO 两阶段训练让模型学会从多视角分析指令并选择最优推理路径,在五个主流 benchmark 上取得 SOTA。

背景与前置知识

GUI Grounding(GUI 元素定位):给定一张 GUI 截图和一条自然语言指令,模型需要预测目标 UI 元素在屏幕上的坐标点。这是 GUI Agent 完成用户任务的核心基础能力——如果模型连"点哪里"都搞错了,后面的自动化操作就无从谈起。

指令的多样性(Instruction Diversity):人类在描述一个 UI 操作时,会自然地切换不同视角。比如"关闭窗口"这个意图,可以说"点那个红色的 X"(外观视角),也可以说"关闭文件管理器"(功能视角),或者说"点右上角的按钮"(位置视角),或者说"把这个屏幕关掉"(意图视角)。这四种描述指向同一个操作,但从不同角度表述。

GRPO(Group Relative Policy Optimization):一种强化学习算法,是 DeepSeek-R1 中使用的优化方法。核心思想是对同一输入生成多个 rollout,用组内相对优势(Z-score 归一化后的奖励)来更新策略,不需要单独的 critic 模型。

OmniParser:一个纯视觉的 GUI 解析工具,能从截图中检测出所有可交互的 UI 元素及其边界框。

核心思想详解

这篇论文的核心洞察可以用一个简单的类比来理解:

想象你去餐厅点菜。服务员给你菜单,你不会用"物理学"的方式描述想吃的菜("我要一份由碳氢化合物组成的、经过美拉德反应的蛋白质混合物"),而是会说"我要一份红烧肉"。但如果菜单上有两道看起来很相似的菜,你可能会切换到外观视角:"就是图片上那个红红的、装在砂锅里的那个"。如果还不行,你会加上位置信息:"第三页左上角那个"。

这就是 Instruction-as-Reasoning 的本质:不同的指令表述不是简单的同义改写,而是不同的分析视角(reasoning pathway)。优秀的 GUI Agent 不应该只会机械地匹配指令文字和 UI 元素,而应该能从多个角度理解用户意图,并自动选择最有效的一个。

作者在 ScreenSpot-Pro 上做了一个关键实验:把原始指令手动改写成四种不同视角(外观、功能、位置、意图),用同一个模型(Qwen2.5-VL-7B)零样本测试。结果发现:四种视角的准确率差异巨大(18.9% → 35.2%),而且如果能针对每个样本选择最佳视角("Combined"),准确率能达到 64.1%——相比原始指令的 36.4%,相对提升高达 76%

这个发现直接推导出方法设计:先用 SFT 教会模型从多种视角推理,再用 RL 让模型学会选择最优视角。

方法逐步拆解

关键公式/算法解读

实验设计分析

关键图表

局限性