主要工作

env

AutoForge: Automated Environment Synthesis for Agentic Reinforcement Learning

问题:基于大模型的智能体做强化学习(RL)时,模拟环境难自动生成、模拟用户不稳定、多环境训练效率低

方案:AutoForge = 自动化高难度环境 / 任务合成流水线 + 环境级强化学习算法 ERPO

核验标准:τ-bench、τ²-Bench、VitaBench、ACEBench-zh

主要工作

两个模块

  • 一套全自动化流水线:仅靠工具文档,就能生成高难度、可验证的模拟环境 + 任务
  • ERPO 算法:屏蔽模拟用户错误 + 环境级优势估计,提升训练稳定与效率

结论:在主流 Agent 基准上,30B 参数的 AutoForge开源模型第一,接近闭源大模型,且跨域泛化强。

现有工作 3 大缺陷

  • 环境合成半自动化,任务难度低
  • 模拟用户不稳定,无纠错机制
  • 多环境 RL 用单环境视角,效果差

自动生成模块

环境生成

把模拟环境定义为 E=(状态 S, 操作函数集 F)

  • 状态S:LLM 从工具文档提取属性名,存为数据库键值对
  • 函数F:LLM 基于工具文档 + 状态结构,生成Python 可执行代码

工具生成

  • 序列采样:工具 = 节点,工具输入输出关联 = 边,随机游走生成工具序列
  • 序列合并:多序列融合,LLM 去冗余
  • 推理节点插入:加高阶推理(如算总价)
  • 推理边添加:明确工具依赖,最终生成有向无环图 DAG(任务蓝图)

任务生成

  • 环境初始化:给状态属性赋值
  • 工具序列执行:按拓扑序跑工具,得到最终标准状态
  • 任务精炼:生成自然、极简的任务指令,形成训练样本

学习模块(ERPO算法)

和GRPO的区别:

  • 模拟用户发请求
  • 交错思考
  • 屏蔽用户错误
  • 优势估计
对比项 GRPO(原版) ERPO(论文里的改进)
优势归一化范围 单个问题组内归一化 整个环境内所有问题一起归一化
样本过滤 MEU:屏蔽模拟用户出错的轨迹
适用场景 单任务、单环境 LLM 微调 多环境、带模拟用户的 Agent RL