Procedural Environment Generation for Tool-Use Agents

一句话总结

RandomWorld 是一个通过过程化生成创建可交互工具和非线性组合任务的流水线，利用合成数据对 LLM 进行 SFT 和 RL 训练，在多个工具使用基准上取得性能提升，并在 NESTFUL 数据集上创下两个指标的新 SOTA。

背景与前置知识

▼

理解本论文需要以下基础概念：

LLM 工具使用（Tool Use）：让大语言模型调用外部 API/函数来增强能力，如搜索信息、执行计算、操作文件等。模型需要学会何时调用、调用哪个工具、传什么参数。
在线强化学习（Online RL）：模型在环境中实时交互并获得奖励信号来更新策略。与离线 SFT 不同，RL 训练需要环境是可交互的（工具可以被实际调用并返回结果）。
轨迹骨架（Trajectory Skeleton）：一系列工具调用的抽象序列，标注了每个调用的输入来自哪些先前调用的输出。它是一个 DAG（有向无环图），而非简单的线性链。
组合性（Compositionality）：任务需要多个工具按特定顺序组合完成。非线性组合性意味着工具调用之间可以存在分支和汇合，形成 DAG 结构而非简单链式调用。
GRPO（Group Relative Policy Optimization）：一种在线 RL 算法，属于策略梯度方法的变体，通过组内相对比较来估计优势函数，减少对价值网络的依赖。
SFT（Supervised Fine-Tuning）：监督微调，直接在标注好的输入-输出对上训练模型，是传统的微调方式。
LoRA（Low-Rank Adaptation）：一种参数高效的微调方法，只训练低秩分解后的少量参数，而非整个模型。

核心思想详解

▼

RandomWorld 的核心思想可以用"程序化世界构建"来类比：

想象你在玩一款像 Minecraft 这样的游戏，游戏世界是程序化生成的——地形、生物、任务都不是人工设计的，而是由算法自动创建的。RandomWorld 对 LLM 工具使用训练做了同样的事情：它不依赖真实世界的 API 或人工编写的任务，而是自动生成虚拟的"工具世界"。

这个世界的三个关键特征是：

深度（Depth）：拥有大量来自不同领域的工具（550 个合成工具 + 6 个手工工具），让模型学会泛化到未见过的工具，而不是死记硬背少数几个工具的用法。
非线性组合性（Non-linear Compositionality）：生成的任务不是简单的"A → B → C"线性调用链，而是可以包含分支和汇合的 DAG 结构。例如，"找到亚马逊购物车中第 N 和第 M 个商品，分别查价格，再求总价"——两条分支最终汇合到一个加法工具。
可交互性（Interactivity）：工具是真正可调用的函数，不是文本描述。模型在 RL 训练中可以实际调用工具、看到中间结果、根据结果调整后续行为。这与大多数现有工具使用数据集（只有静态的文本标注）形成鲜明对比。

方法逐步拆解

▼

RandomWorld 的流水线分为四个主要步骤：

步骤 1：类型系统构建（Section 3.1）

定义 73 个基础类型，是 Python 内置类型（string、int、float）的细粒度子类型。例如：actor-name 是 person-name 的子类型，person-name 是 string 的子类型。
每个类型配有三个组件：描述（用于工具生成时的 LLM 提示）、生成器（生成该类型的随机实例）、识别器（判断一个值是否属于该类型）。
通过三种类型构造器（list、dict、union）可以理论上生成无限多的复合类型。

步骤 2：工具自动生成（Section 3.2）

随机采样输入类型和输出类型。
将类型信息传给 LLM（GPT-4o），让它生成一个合理的工具名称和描述。
LLM 还需给工具的合理性和真实感打分（1-5 分），低于 4 分的工具被丢弃（约 89% 的候选工具被过滤）。
通过的工具有确定性：相同的输入总是返回相同输出（通过缓存输入/输出对实现），且输出值通过类型生成器生成，保证类型安全。
支持依赖类型工具：输出类型依赖于输入值。例如 add 对两个 price 求和，输出仍然是 price。

步骤 3：环境与指令生成（Section 3.3）

这是 RandomWorld 最关键的创新——"从调用序列到指令"的逆向生成方式：

3.3.1 轨迹骨架生成：先采样用户输入类型和轨迹长度，然后通过类型引导的采样过程逐步选择兼容的工具，构建出一个 DAG 形式的调用序列。关键细节：会删除所有"无用"的工具调用（其输出不被任何后续调用使用），然后补充新的调用，反复迭代直到所有调用都有用。
3.3.2 环境构建：根据轨迹骨架采样具体的输入/输出值，填充环境数据结构。可选地为工具分配"应用"，要求 agent 先登录才能使用。
3.3.3 指令生成：用 LLM 根据轨迹骨架和用户输入值生成自然语言指令。为了防止泄露中间结果，所有非用户输入值都被替换为变量名。生成后还需用另一个 LLM 验证指令是否包含足够信息（约 60% 的环境通过了验证）。

步骤 4：智能体接口（Section 3.4）

与 TRL 文本环境完全兼容，支持 RL 和 SFT 两种训练方式。
提示词由工具清单（含干扰工具）+ 指令构成，干扰工具与真实工具的比例为 1:1。

关键公式/算法解读

▼

实验设计分析

▼

关键图表

▼

局限性

▼

Procedural Environment Generation for Tool-Use Agents

一句话总结

背景与前置知识

核心思想详解

方法逐步拆解

步骤 1：类型系统构建（Section 3.1）

步骤 2：工具自动生成（Section 3.2）

步骤 3：环境与指令生成（Section 3.3）

步骤 4：智能体接口（Section 3.4）

关键公式/算法解读

实验设计分析

问题 1：合成数据是否有效？

问题 2：数据量如何影响性能？

问题 3：训练方式（SFT vs RL）哪个更好？

关键图表

局限性

基本信息

实验结果

个人思考