主要工作

env

解决 AI 智能体跨环境学习无法评测的问题 —— 低成本自动生成异构环境、统一智能体学习的表示方法,最终证明固定学习方法撑不起多样环境,自适应选择才是方向

主要工作

提出了AutoEnv框架,拆解环境,形式化智能体学习。

自动环境生成

把强化学习环境E=(状态S,动作A,转移T,奖励R,观测Ω,终止τ)拆解成三层:

  • BaseEnv: 定义环境底层规则(状态S,动作A,转移T,奖励R,观测Ω,终止τ)
  • ObsEnv: 控制智能体可观测部分
  • SkinEnv: 把观测转换成智能体可读到形式,这样同一个规则可以换成不同观测,快速生成多样环境

生成流程

环境主题 → 转成 DSL 结构化描述 → 编码智能体生成代码 → 自修复纠错 → 三阶段验证

  • 执行验证:环境能正常跑、不崩溃
  • 关卡生成:能产出有效游戏 / 任务关卡
  • 可靠性验证:奖励机制合理,不是随机打分

开源数据集

最终筛选出36个环境,358个关卡

形式化学习

学习方法

组建中心化学习:智能体变强=更新内部组件(提示词、代码、工具、模型), loop:

  • Selection(选择):挑出表现好的候选智能体(最优 / 帕累托多选)
  • Optimization(优化):修改组件(基于环境动力学 / 指令反馈)
  • Evaluation(评估):丢进环境跑,测奖励 / 成功率

学习方法的实现

组合2 种选择 + 2 种优化 + 2 种组件,得到8 种学习方法,还定义了学习上限

  • 学习上限:每个环境都选最优方法的理想性能(用来衡量现有方法的差距)