←返回论文笔记

主要工作

2026年5月11日env

解决 AI 智能体跨环境学习无法评测的问题 —— 低成本自动生成异构环境、统一智能体学习的表示方法，最终证明固定学习方法撑不起多样环境，自适应选择才是方向。

主要工作

提出了AutoEnv框架，拆解环境，形式化智能体学习。

自动环境生成

把强化学习环境E=(状态S,动作A,转移T,奖励R,观测Ω,终止τ)拆解成三层：

BaseEnv: 定义环境底层规则（状态S,动作A,转移T,奖励R,观测Ω,终止τ）
ObsEnv: 控制智能体可观测部分
SkinEnv: 把观测转换成智能体可读到形式，这样同一个规则可以换成不同观测，快速生成多样环境

生成流程

环境主题 → 转成 DSL 结构化描述 → 编码智能体生成代码 → 自修复纠错 → 三阶段验证

执行验证：环境能正常跑、不崩溃
关卡生成：能产出有效游戏 / 任务关卡
可靠性验证：奖励机制合理，不是随机打分

开源数据集

最终筛选出36个环境，358个关卡

形式化学习

学习方法

组建中心化学习：智能体变强=更新内部组件（提示词、代码、工具、模型）， loop:

Selection（选择）：挑出表现好的候选智能体（最优 / 帕累托多选）
Optimization（优化）：修改组件（基于环境动力学 / 指令反馈）
Evaluation（评估）：丢进环境跑，测奖励 / 成功率

学习方法的实现

组合2 种选择 + 2 种优化 + 2 种组件，得到8 种学习方法，还定义了学习上限：

学习上限：每个环境都选最优方法的理想性能（用来衡量现有方法的差距）