From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

Jiaxuan Gao, Jiaao Chen, Chuyi He, Shusheng Xu, Di Jin, Yi Wu 2026-01
交互式智能体 强化学习 数据合成 工具使用 自进化 GRPO 多智能体协同

一句话总结

本文提出 AReaL-SEA 框架,通过多智能体协同的自进化数据合成管线生成可验证的训练数据,并结合基于验证器的结果奖励 RL(GRPO)训练多轮交互式工具使用智能体,在 π²-bench 基准上取得了显著的性能提升。

背景与前置知识

要理解这篇论文,需要掌握以下基础概念:

交互式工具使用智能体(Interactive Tool-Using Agents):指能够与用户进行多轮对话、同时调用外部工具/API 来完成任务的 AI 系统。与传统的单轮问答不同,智能体需要在对话中理解用户意图、主动调用工具获取信息、将结果整合后回复用户。典型场景包括客服系统(航班查询、订单处理、电信业务办理)等。

Dec-POMDP(去中心化部分可观测马尔可夫决策过程):一种多智能体决策框架。本文将交互式工具使用建模为两玩家(智能体 + 用户模拟器)的 Dec-POMDP:每个玩家只能观测到部分信息,需要独立决策。这一建模方式突出了用户行为的不确定性和环境的动态性。

GRPO(Group Relative Policy Optimization):一种 RL 算法,最初用于数学推理。其核心思想是在一组采样轨迹中进行相对比较来确定优势值,无需单独的价值网络。本文将其适配到交互式智能体场景,引入 token 级裁剪和归一化。

AReaL 框架:一个异步强化学习训练系统,将 rollout 生成与策略训练解耦,支持大规模分布式 RL 训练。

核心思想详解

本文的核心贡献是一个端到端的训练框架 AReaL-SEA,解决"如何为交互式工具使用智能体生成高质量训练数据并进行 RL 训练"这一关键问题。可以用一个类比来理解:

想象你在培训一批客服人员。传统方法是让真人扮演客户进行模拟训练(昂贵、规模有限)。AReaL-SEA 的做法是:先设计一套"培训场景生成方案"(Meta-Planning),然后用多个 AI 角色协同生成具体场景、验证场景合理性、模拟客户与客服交互、最后评估交互质量。更关键的是,系统会分析失败的案例,自动调整场景生成方案,形成自我进化的闭环。

框架包含两个核心模块:

  • 自进化数据合成(Self-Evolving Data Synthesis):通过多智能体协同,生成多样化、可验证的训练任务和轨迹。Meta-Planning 机制确保覆盖不同领域、复杂度和工具使用模式。反射循环(Reflection Loop)使系统能从失败中学习,持续优化数据质量。
  • 可验证奖励 RL(Verifiable-Reward RL):由于交互式任务的奖励难以定义,本文采用基于验证器的结果奖励——对比任务完成后的最终状态与真实状态,给出二元奖励(成功/失败)。这种方法避免了设计复杂奖励函数的难题,同时保证了奖励信号的可靠性。

方法逐步拆解

关键公式/算法解读

实验设计分析

关键图表

局限性