UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning

一句话总结

提出 Instruction-as-Reasoning 范式，将 GUI grounding 中的自然语言指令从静态输入升级为动态推理路径，通过 SFT+GRPO 两阶段训练让模型学会从多视角分析指令并选择最优推理路径，在五个主流 benchmark 上取得 SOTA。

背景与前置知识

▼

GUI Grounding（GUI 元素定位）：给定一张 GUI 截图和一条自然语言指令，模型需要预测目标 UI 元素在屏幕上的坐标点。这是 GUI Agent 完成用户任务的核心基础能力——如果模型连"点哪里"都搞错了，后面的自动化操作就无从谈起。

指令的多样性（Instruction Diversity）：人类在描述一个 UI 操作时，会自然地切换不同视角。比如"关闭窗口"这个意图，可以说"点那个红色的 X"（外观视角），也可以说"关闭文件管理器"（功能视角），或者说"点右上角的按钮"（位置视角），或者说"把这个屏幕关掉"（意图视角）。这四种描述指向同一个操作，但从不同角度表述。

GRPO（Group Relative Policy Optimization）：一种强化学习算法，是 DeepSeek-R1 中使用的优化方法。核心思想是对同一输入生成多个 rollout，用组内相对优势（Z-score 归一化后的奖励）来更新策略，不需要单独的 critic 模型。

OmniParser：一个纯视觉的 GUI 解析工具，能从截图中检测出所有可交互的 UI 元素及其边界框。

核心思想详解

▼

这篇论文的核心洞察可以用一个简单的类比来理解：

想象你去餐厅点菜。服务员给你菜单，你不会用"物理学"的方式描述想吃的菜（"我要一份由碳氢化合物组成的、经过美拉德反应的蛋白质混合物"），而是会说"我要一份红烧肉"。但如果菜单上有两道看起来很相似的菜，你可能会切换到外观视角："就是图片上那个红红的、装在砂锅里的那个"。如果还不行，你会加上位置信息："第三页左上角那个"。

这就是 Instruction-as-Reasoning 的本质：不同的指令表述不是简单的同义改写，而是不同的分析视角（reasoning pathway）。优秀的 GUI Agent 不应该只会机械地匹配指令文字和 UI 元素，而应该能从多个角度理解用户意图，并自动选择最有效的一个。

作者在 ScreenSpot-Pro 上做了一个关键实验：把原始指令手动改写成四种不同视角（外观、功能、位置、意图），用同一个模型（Qwen2.5-VL-7B）零样本测试。结果发现：四种视角的准确率差异巨大（18.9% → 35.2%），而且如果能针对每个样本选择最佳视角（"Combined"），准确率能达到 64.1%——相比原始指令的 36.4%，相对提升高达 76%。

这个发现直接推导出方法设计：先用 SFT 教会模型从多种视角推理，再用 RL 让模型学会选择最优视角。

方法逐步拆解

▼

第一步：数据清洗与增强（Data Pipeline）

预处理：用 OmniParser V2 检测截图中所有 UI 元素，通过 IoU 匹配找到与 ground-truth 最匹配的边界框，过滤掉不匹配的噪声样本。这一步把原数据中 23.3% 的质量问题降到了 8% 以下。
多视角指令增强：对每个样本，用 GPT-4.1 生成四种视角的指令：
- 外观（Appearance）："点那个红色的 X 图标"
- 功能（Function）："关闭当前文件管理器窗口"
- 位置（Spatial/Location）："点右上角的按钮"
- 意图（Goal/Intent）："关掉这个屏幕"
验证过滤：GPT-4.1 再次检查每条生成的指令，确认它唯一指向目标元素（不能有歧义，不能指向多个元素）。

第二步：SFT 阶段——学习多样推理

在 SFT 阶段，训练数据被构造成：输入 =（截图 + 一种视角的指令），输出 =（另一种视角的推理文本 + 最终坐标）。

举个例子：

输入指令（功能视角）："点击 CSDN 书签"
模型思考输出（外观视角）："我将从外观角度分析——点击书签栏中带有红色 C 图标和 CSDN 标签的书签"
最终输出：坐标 [588, 67]

这种设计巧妙的地方在于：它强制模型学会把一种指令翻译成另一种视角的描述，然后再根据翻译后的描述定位元素。经过大量训练后，模型内化了"多视角推理"的能力。

第三步：RL 阶段——学习选择最优视角

SFT 教会了模型"会"从多视角推理，但没教它"什么时候用什么视角"。RL 阶段解决这个问题。

训练时不再指定使用哪种视角，只要求模型"think"然后再输出坐标
用 GRPO 算法优化，奖励函数是简单的 point-in-box：预测点在 ground-truth 框内 → reward=1，否则 → reward=0
模型通过探索（生成 8 个 rollout），自己发现哪些推理路径能带来更高准确率

关键设计细节：

SFT 阶段的 prompt 明确列出了四种视角的定义（Appearance/Function/Spatial/Goal Perspective）
RL 阶段的 prompt 去掉了这些定义，只说"你先想想再回答"，鼓励自由探索
这样设计是因为：如果 RL 阶段还给定视角，模型就只会从这四个里选；去掉限制后，模型甚至能涌现出训练时没见过的全新推理视角

关键公式/算法解读

▼

实验设计分析

▼

关键图表

▼

局限性

▼

UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning

一句话总结

背景与前置知识

核心思想详解

方法逐步拆解

第一步：数据清洗与增强（Data Pipeline）

第二步：SFT 阶段——学习多样推理

第三步：RL 阶段——学习选择最优视角

关键公式/算法解读

SFT 阶段的目标函数（公式 1）

GRPO 的优势计算（公式 2）

GRPO 的优化目标（公式 3）

实验设计分析

为什么选这些 benchmark？

实验结果说明了什么？

消融实验的关键发现：

关键图表

局限性

基本信息

实验结果

个人思考