一句话总结
本文提出 Agent World Model (AWM),一个全合成环境生成管线,通过自动生成 1,000 个代码驱动、数据库支撑的交互环境,实现了大规模 agentic RL 训练,并在三个基准测试上展现了强大的分布外泛化能力。
背景与前置知识
▼LLM Agent(大语言模型智能体):指基于大语言模型构建的自主智能体,能够通过多轮交互调用工具(如搜索、数据库查询、API 调用等)来完成复杂任务。不同于简单的问答,Agent 需要在环境中观察、规划、执行,形成闭环。
Agentic RL(智能体强化学习):将强化学习应用于 LLM Agent 的训练过程。Agent 通过与环境的交互获得奖励信号,从而学习更好的策略。典型方法包括 PPO、GRPO 等。
GRPO(Group Relative Policy Optimization):一种策略优化算法,通过组内相对比较来计算优势函数,避免了需要单独训练价值模型的开销。在同一组采样中,通过比较不同轨迹的回报来确定每个动作的好坏。
Tool Use(工具使用):LLM Agent 的核心能力之一,指模型能够生成结构化的工具调用请求(如 JSON 格式的函数调用),并处理返回的观测结果。
环境(Environment):在 RL 框架中,环境是 Agent 交互的对象。对于工具使用的 Agent 来说,环境包括一组可调用的工具、工具背后的数据/状态、以及工具执行后返回的观测。好的环境需要提供可靠的状态转移和丰富的交互空间。
合成数据生成(Synthetic Data Generation):利用 LLM 自动生成训练所需的数据和环境,而非依赖人工标注或真实系统采集。这种方法可以大幅扩展数据规模和多样性。
核心思想详解
▼AWM 的核心思想可以用一个类比来理解:想象你要训练一个人学习烹饪,有三种方案:
- 方案 A(真实环境):让他去真实餐厅实习——成本高、效率低、场景有限。
- 方案 B(LLM 模拟环境):让人假装是顾客和食材——不靠谱,因为"演员"可能会出错,状态不一致。
- 方案 C(AWM 的做法):搭建一套自动化的模拟厨房系统——有真实的食材数据库、真实的烹饪工具(代码实现的),每次操作都会真实地改变食材状态。这套系统可以批量生成上千个不同类型的"厨房"。
AWM 的关键创新在于:用代码和数据库构建可执行的合成环境,而不是用 LLM 来模拟环境。
- 状态一致性:数据库保证了状态转移的确定性和可靠性,不会出现"幻觉"
- 可验证性:可以通过检查数据库状态来客观验证任务是否完成,从而设计可靠的奖励函数
- 可扩展性:通过 LLM 辅助生成,可以大规模创建多样化的环境
- 高效性:代码执行比 LLM 模拟快得多,也比访问真实 API 便宜