←返回论文笔记

主要工作

2026年5月11日env

AutoForge: Automated Environment Synthesis for Agentic Reinforcement Learning

问题：基于大模型的智能体做强化学习（RL）时，模拟环境难自动生成、模拟用户不稳定、多环境训练效率低

方案：AutoForge = 自动化高难度环境 / 任务合成流水线 + 环境级强化学习算法 ERPO

核验标准：τ-bench、τ²-Bench、VitaBench、ACEBench-zh

主要工作

两个模块：

一套全自动化流水线：仅靠工具文档，就能生成高难度、可验证的模拟环境 + 任务
ERPO 算法：屏蔽模拟用户错误 + 环境级优势估计，提升训练稳定与效率

结论：在主流 Agent 基准上，30B 参数的 AutoForge开源模型第一，接近闭源大模型，且跨域泛化强。

现有工作 3 大缺陷：

环境合成半自动化，任务难度低
模拟用户不稳定，无纠错机制
多环境 RL 用单环境视角，效果差

自动生成模块

环境生成

把模拟环境定义为 E=(状态 S, 操作函数集 F)

状态S：LLM 从工具文档提取属性名，存为数据库键值对
函数F：LLM 基于工具文档 + 状态结构，生成Python 可执行代码

工具生成

序列采样：工具 = 节点，工具输入输出关联 = 边，随机游走生成工具序列
序列合并：多序列融合，LLM 去冗余
推理节点插入：加高阶推理（如算总价）
推理边添加：明确工具依赖，最终生成有向无环图 DAG（任务蓝图）

任务生成

环境初始化：给状态属性赋值
工具序列执行：按拓扑序跑工具，得到最终标准状态
任务精炼：生成自然、极简的任务指令，形成训练样本

学习模块（ERPO算法）

和GRPO的区别：

模拟用户发请求
交错思考
屏蔽用户错误
优势估计

对比项	GRPO（原版）	ERPO（论文里的改进）
优势归一化范围	单个问题组内归一化	整个环境内所有问题一起归一化
样本过滤	无	加 MEU：屏蔽模拟用户出错的轨迹
适用场景	单任务、单环境 LLM 微调	多环境、带模拟用户的 Agent RL