SimuWoB: 模拟真实移动应用用于快速且忠实的GUI Agent基准测试

Guohong Liu, Jialei Ye, Pengzhi Gao et al. (清华大学AIR, 电子科技大学, 小米) 2026年5月
GUI Agents Mobile Apps Benchmarking Synthetic Environment LLM

一句话总结

SimuWoB 提出基于LLM的移动应用环境合成框架,自动生成120个高保真、带可执行验证器的可交互移动应用测试环境,揭示当前最强移动GUI agent在复杂任务上成功率仅27.92%。

背景与前置知识

移动GUI Agent

能像人类一样操作手机应用的AI系统。给定任务后,agent可以观察屏幕、推理当前状态、执行操作直到任务完成。

现有基准测试三大问题

  • 真实感与多样性不足:为保持可复现性,只能用开源应用或文件操作任务,与实际使用场景有差距
  • 任务复杂度有限:主要测试视觉定位和简单导航,缺乏对长周期执行、中间信息管理、多步推理的压力测试
  • 评估效率低:依赖模拟器、虚拟机,启动缓慢、状态重置复杂

关键概念

无后端网页:所有数据和逻辑在前端,无需服务器。因为SimuWoB"制造"了这些App,它们知道内部状态,可以精确判断任务是否完成——这是真实App无法做到的。

核心思想详解

想测试实习生能否熟练使用各种手机App。用真实App需要准备账号、清理数据、且无法自动判断是否完成任务。SimuWoB的做法:用AI生成"仿真的App"——看起来和真实App一模一样,但数据和逻辑都是模拟的。

两个层次的关键创新

  • 环境生成自动化:用LLM代码生成能力,从自然语言任务描述出发,自动生成完整的移动应用仿真
  • 环境与任务解耦:先生成App本身,再注入具体任务和验证器,确保App是真正可用的多功能应用而非为单一任务定制

方法逐步拆解

实验分析

关键图表

局限性