Procedural Environment Generation for Tool-Use Agents

Michael Sullivan, Mareike Hartmann, Alexander Koller 2025-05-21
工具使用智能体 过程化生成 强化学习 合成数据 LLM 微调

一句话总结

RandomWorld 是一个通过过程化生成创建可交互工具和非线性组合任务的流水线,利用合成数据对 LLM 进行 SFT 和 RL 训练,在多个工具使用基准上取得性能提升,并在 NESTFUL 数据集上创下两个指标的新 SOTA。

背景与前置知识

理解本论文需要以下基础概念:

  • LLM 工具使用(Tool Use):让大语言模型调用外部 API/函数来增强能力,如搜索信息、执行计算、操作文件等。模型需要学会何时调用、调用哪个工具、传什么参数。
  • 在线强化学习(Online RL):模型在环境中实时交互并获得奖励信号来更新策略。与离线 SFT 不同,RL 训练需要环境是可交互的(工具可以被实际调用并返回结果)。
  • 轨迹骨架(Trajectory Skeleton):一系列工具调用的抽象序列,标注了每个调用的输入来自哪些先前调用的输出。它是一个 DAG(有向无环图),而非简单的线性链。
  • 组合性(Compositionality):任务需要多个工具按特定顺序组合完成。非线性组合性意味着工具调用之间可以存在分支和汇合,形成 DAG 结构而非简单链式调用。
  • GRPO(Group Relative Policy Optimization):一种在线 RL 算法,属于策略梯度方法的变体,通过组内相对比较来估计优势函数,减少对价值网络的依赖。
  • SFT(Supervised Fine-Tuning):监督微调,直接在标注好的输入-输出对上训练模型,是传统的微调方式。
  • LoRA(Low-Rank Adaptation):一种参数高效的微调方法,只训练低秩分解后的少量参数,而非整个模型。

核心思想详解

RandomWorld 的核心思想可以用"程序化世界构建"来类比:

想象你在玩一款像 Minecraft 这样的游戏,游戏世界是程序化生成的——地形、生物、任务都不是人工设计的,而是由算法自动创建的。RandomWorld 对 LLM 工具使用训练做了同样的事情:它不依赖真实世界的 API 或人工编写的任务,而是自动生成虚拟的"工具世界"。

这个世界的三个关键特征是:

  • 深度(Depth):拥有大量来自不同领域的工具(550 个合成工具 + 6 个手工工具),让模型学会泛化到未见过的工具,而不是死记硬背少数几个工具的用法。
  • 非线性组合性(Non-linear Compositionality):生成的任务不是简单的"A → B → C"线性调用链,而是可以包含分支和汇合的 DAG 结构。例如,"找到亚马逊购物车中第 N 和第 M 个商品,分别查价格,再求总价"——两条分支最终汇合到一个加法工具。
  • 可交互性(Interactivity):工具是真正可调用的函数,不是文本描述。模型在 RL 训练中可以实际调用工具、看到中间结果、根据结果调整后续行为。这与大多数现有工具使用数据集(只有静态的文本标注)形成鲜明对比。

方法逐步拆解

关键公式/算法解读

实验设计分析

关键图表

局限性