Agent World Model

一句话总结

本文提出 Agent World Model (AWM)，一个全合成环境生成管线，通过自动生成 1,000 个代码驱动、数据库支撑的交互环境，实现了大规模 agentic RL 训练，并在三个基准测试上展现了强大的分布外泛化能力。

▼

LLM Agent（大语言模型智能体）：指基于大语言模型构建的自主智能体，能够通过多轮交互调用工具（如搜索、数据库查询、API 调用等）来完成复杂任务。不同于简单的问答，Agent 需要在环境中观察、规划、执行，形成闭环。

Agentic RL（智能体强化学习）：将强化学习应用于 LLM Agent 的训练过程。Agent 通过与环境的交互获得奖励信号，从而学习更好的策略。典型方法包括 PPO、GRPO 等。

GRPO（Group Relative Policy Optimization）：一种策略优化算法，通过组内相对比较来计算优势函数，避免了需要单独训练价值模型的开销。在同一组采样中，通过比较不同轨迹的回报来确定每个动作的好坏。

Tool Use（工具使用）：LLM Agent 的核心能力之一，指模型能够生成结构化的工具调用请求（如 JSON 格式的函数调用），并处理返回的观测结果。

环境（Environment）：在 RL 框架中，环境是 Agent 交互的对象。对于工具使用的 Agent 来说，环境包括一组可调用的工具、工具背后的数据/状态、以及工具执行后返回的观测。好的环境需要提供可靠的状态转移和丰富的交互空间。

合成数据生成（Synthetic Data Generation）：利用 LLM 自动生成训练所需的数据和环境，而非依赖人工标注或真实系统采集。这种方法可以大幅扩展数据规模和多样性。

▼

AWM 的核心思想可以用一个类比来理解：想象你要训练一个人学习烹饪，有三种方案：

方案 A（真实环境）：让他去真实餐厅实习——成本高、效率低、场景有限。
方案 B（LLM 模拟环境）：让人假装是顾客和食材——不靠谱，因为"演员"可能会出错，状态不一致。
方案 C（AWM 的做法）：搭建一套自动化的模拟厨房系统——有真实的食材数据库、真实的烹饪工具（代码实现的），每次操作都会真实地改变食材状态。这套系统可以批量生成上千个不同类型的"厨房"。

AWM 的关键创新在于：用代码和数据库构建可执行的合成环境，而不是用 LLM 来模拟环境。

▼

▼

▼

▼

▼