Agentic Reinforced Policy Optimization

Guanting Dong, Hangyu Mao, Kai Ma, Licheng Bao, Yifei Chen, Zhongyuan Wang 等 2025年7月
ARPO Agentic RL Multi-turn RL Tool Use LLM Agents Entropy-based Rollout Adaptive Sampling

一句话总结

ARPO 是一种面向多轮工具交互场景的智能体强化学习算法,通过基于熵的自适应展开机制和优势归因估计,在工具调用后的高不确定步骤进行分支采样,仅用一半的工具调用预算即超越传统轨迹级 RL 方法。

背景与前置知识

RLVR(基于可验证奖励的强化学习)

RLVR 是当前提升大语言模型推理能力的主流范式。它通过可验证的奖励信号(如数学题的正确与否)来训练 LLM,已在单轮推理任务(如数学、代码生成)中取得了显著成效。代表作包括 OpenAI o1、DeepSeek-R1、QwQ 等。

多轮工具使用

多轮工具使用是指 LLM 在推理过程中与外部工具(搜索引擎、代码解释器、浏览器等)进行多轮交互的能力。不同于单轮推理,多轮工具使用要求模型不仅能进行长链推理,还需在推理中动态调用工具、解析反馈、做出决策。

LLM Agents

LLM Agents 是以 LLM 为核心决策引擎的智能体系统,需要具备长程规划、自适应决策和与外部环境动态交互的能力。Agentic RL 是为此设计的训练范式,将 LLM 训练从静态任务求解扩展到动态的智能体-环境交互推理。

当前方法的局限

主流 Agentic RL 方法(如 GRPO、DAPO)采用轨迹级算法,独立采样完整工具使用轨迹,基于最终输出提供奖励信号。这些方法忽略了工具调用反馈后模型推理的不确定性变化,无法有效探索细粒度的逐步工具使用行为。

核心思想详解

ARPO 的核心思想源于一个关键发现:LLM 在接收到工具调用反馈后,其生成 token 的熵值会显著升高,表明模型在这些步骤面临高度不确定性。

现象解释

  • 外部工具反馈与模型内部推理之间存在分布偏移,导致模型需要重新适应新的信息分布
  • 搜索引擎返回的丰富文本内容比 Python 执行的确定性数值带来更大的熵值波动
  • 每次工具调用后的前 10-50 个 token 的熵值上升最为明显

Entropy-based Adaptive Rollout(基于熵的自适应展开)

不是对完整轨迹进行均等采样,而是在工具调用后熵值显著变化的步骤进行分支采样。这样可以在高不确定性的推理节点投入更多探索资源,发现更优的逐步工具使用策略。

Advantage Attribution Estimation(优势归因估计)

由于自适应展开会产生包含共享前缀和分支路径的轨迹,需要一种区分共享 token 和分支 token 的优势估计策略,使模型能有效内化逐步工具使用行为中的优势差异。

方法逐步拆解

关键公式/算法解读

实验设计分析

关键图表

局限性