一句话总结
SimuWoB 提出基于LLM的移动应用环境合成框架,自动生成120个高保真、带可执行验证器的可交互移动应用测试环境,揭示当前最强移动GUI agent在复杂任务上成功率仅27.92%。
背景与前置知识
▼移动GUI Agent
能像人类一样操作手机应用的AI系统。给定任务后,agent可以观察屏幕、推理当前状态、执行操作直到任务完成。
现有基准测试三大问题
- 真实感与多样性不足:为保持可复现性,只能用开源应用或文件操作任务,与实际使用场景有差距
- 任务复杂度有限:主要测试视觉定位和简单导航,缺乏对长周期执行、中间信息管理、多步推理的压力测试
- 评估效率低:依赖模拟器、虚拟机,启动缓慢、状态重置复杂
关键概念
无后端网页:所有数据和逻辑在前端,无需服务器。因为SimuWoB"制造"了这些App,它们知道内部状态,可以精确判断任务是否完成——这是真实App无法做到的。
核心思想详解
▼想测试实习生能否熟练使用各种手机App。用真实App需要准备账号、清理数据、且无法自动判断是否完成任务。SimuWoB的做法:用AI生成"仿真的App"——看起来和真实App一模一样,但数据和逻辑都是模拟的。
两个层次的关键创新
- 环境生成自动化:用LLM代码生成能力,从自然语言任务描述出发,自动生成完整的移动应用仿真
- 环境与任务解耦:先生成App本身,再注入具体任务和验证器,确保App是真正可用的多功能应用而非为单一任务定制