主要工作
env
解决 AI 智能体跨环境学习无法评测的问题 —— 低成本自动生成异构环境、统一智能体学习的表示方法,最终证明固定学习方法撑不起多样环境,自适应选择才是方向。
主要工作
提出了AutoEnv框架,拆解环境,形式化智能体学习。
自动环境生成
把强化学习环境E=(状态S,动作A,转移T,奖励R,观测Ω,终止τ)拆解成三层:
- BaseEnv: 定义环境底层规则(状态S,动作A,转移T,奖励R,观测Ω,终止τ)
- ObsEnv: 控制智能体可观测部分
- SkinEnv: 把观测转换成智能体可读到形式,这样同一个规则可以换成不同观测,快速生成多样环境
生成流程
环境主题 → 转成 DSL 结构化描述 → 编码智能体生成代码 → 自修复纠错 → 三阶段验证
- 执行验证:环境能正常跑、不崩溃
- 关卡生成:能产出有效游戏 / 任务关卡
- 可靠性验证:奖励机制合理,不是随机打分
开源数据集
最终筛选出36个环境,358个关卡
形式化学习
学习方法
组建中心化学习:智能体变强=更新内部组件(提示词、代码、工具、模型), loop:
- Selection(选择):挑出表现好的候选智能体(最优 / 帕累托多选)
- Optimization(优化):修改组件(基于环境动力学 / 指令反馈)
- Evaluation(评估):丢进环境跑,测奖励 / 成功率
学习方法的实现
组合2 种选择 + 2 种优化 + 2 种组件,得到8 种学习方法,还定义了学习上限:
- 学习上限:每个环境都选最优方法的理想性能(用来衡量现有方法的差距)