Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

Zhaoyang Wang, Canwen Xu, Boyi Liu, Yite Wang, Siwei Han, Zhewei Yao, Huaxiu Yao, Yuxiong He 2026年2月
LLM Agent 强化学习 合成环境 工具使用 多轮交互 GRPO

一句话总结

本文提出 Agent World Model (AWM),一个全合成环境生成管线,通过自动生成 1,000 个代码驱动、数据库支撑的交互环境,实现了大规模 agentic RL 训练,并在三个基准测试上展现了强大的分布外泛化能力。

背景与前置知识

LLM Agent(大语言模型智能体):指基于大语言模型构建的自主智能体,能够通过多轮交互调用工具(如搜索、数据库查询、API 调用等)来完成复杂任务。不同于简单的问答,Agent 需要在环境中观察、规划、执行,形成闭环。

Agentic RL(智能体强化学习):将强化学习应用于 LLM Agent 的训练过程。Agent 通过与环境的交互获得奖励信号,从而学习更好的策略。典型方法包括 PPO、GRPO 等。

GRPO(Group Relative Policy Optimization):一种策略优化算法,通过组内相对比较来计算优势函数,避免了需要单独训练价值模型的开销。在同一组采样中,通过比较不同轨迹的回报来确定每个动作的好坏。

Tool Use(工具使用):LLM Agent 的核心能力之一,指模型能够生成结构化的工具调用请求(如 JSON 格式的函数调用),并处理返回的观测结果。

环境(Environment):在 RL 框架中,环境是 Agent 交互的对象。对于工具使用的 Agent 来说,环境包括一组可调用的工具、工具背后的数据/状态、以及工具执行后返回的观测。好的环境需要提供可靠的状态转移和丰富的交互空间。

合成数据生成(Synthetic Data Generation):利用 LLM 自动生成训练所需的数据和环境,而非依赖人工标注或真实系统采集。这种方法可以大幅扩展数据规模和多样性。

核心思想详解

AWM 的核心思想可以用一个类比来理解:想象你要训练一个人学习烹饪,有三种方案:

  • 方案 A(真实环境):让他去真实餐厅实习——成本高、效率低、场景有限。
  • 方案 B(LLM 模拟环境):让人假装是顾客和食材——不靠谱,因为"演员"可能会出错,状态不一致。
  • 方案 C(AWM 的做法):搭建一套自动化的模拟厨房系统——有真实的食材数据库、真实的烹饪工具(代码实现的),每次操作都会真实地改变食材状态。这套系统可以批量生成上千个不同类型的"厨房"。

AWM 的关键创新在于:用代码和数据库构建可执行的合成环境,而不是用 LLM 来模拟环境。

  • 状态一致性:数据库保证了状态转移的确定性和可靠性,不会出现"幻觉"
  • 可验证性:可以通过检查数据库状态来客观验证任务是否完成,从而设计可靠的奖励函数
  • 可扩展性:通过 LLM 辅助生成,可以大规模创建多样化的环境
  • 高效性:代码执行比 LLM 模拟快得多,也比访问真实 API 便宜

方法逐步拆解

关键公式/算法解读

实验设计分析

关键图表

局限性