Agentic Reinforced Policy Optimization

一句话总结

ARPO 是一种面向多轮工具交互场景的智能体强化学习算法，通过基于熵的自适应展开机制和优势归因估计，在工具调用后的高不确定步骤进行分支采样，仅用一半的工具调用预算即超越传统轨迹级 RL 方法。

背景与前置知识

▼

RLVR（基于可验证奖励的强化学习）

RLVR 是当前提升大语言模型推理能力的主流范式。它通过可验证的奖励信号（如数学题的正确与否）来训练 LLM，已在单轮推理任务（如数学、代码生成）中取得了显著成效。代表作包括 OpenAI o1、DeepSeek-R1、QwQ 等。

多轮工具使用

多轮工具使用是指 LLM 在推理过程中与外部工具（搜索引擎、代码解释器、浏览器等）进行多轮交互的能力。不同于单轮推理，多轮工具使用要求模型不仅能进行长链推理，还需在推理中动态调用工具、解析反馈、做出决策。

LLM Agents

LLM Agents 是以 LLM 为核心决策引擎的智能体系统，需要具备长程规划、自适应决策和与外部环境动态交互的能力。Agentic RL 是为此设计的训练范式，将 LLM 训练从静态任务求解扩展到动态的智能体-环境交互推理。

当前方法的局限

主流 Agentic RL 方法（如 GRPO、DAPO）采用轨迹级算法，独立采样完整工具使用轨迹，基于最终输出提供奖励信号。这些方法忽略了工具调用反馈后模型推理的不确定性变化，无法有效探索细粒度的逐步工具使用行为。

核心思想详解

▼

ARPO 的核心思想源于一个关键发现：LLM 在接收到工具调用反馈后，其生成 token 的熵值会显著升高，表明模型在这些步骤面临高度不确定性。

现象解释

外部工具反馈与模型内部推理之间存在分布偏移，导致模型需要重新适应新的信息分布
搜索引擎返回的丰富文本内容比 Python 执行的确定性数值带来更大的熵值波动
每次工具调用后的前 10-50 个 token 的熵值上升最为明显

Entropy-based Adaptive Rollout（基于熵的自适应展开）

不是对完整轨迹进行均等采样，而是在工具调用后熵值显著变化的步骤进行分支采样。这样可以在高不确定性的推理节点投入更多探索资源，发现更优的逐步工具使用策略。

Advantage Attribution Estimation（优势归因估计）

由于自适应展开会产生包含共享前缀和分支路径的轨迹，需要一种区分共享 token 和分支 token 的优势估计策略，使模型能有效内化逐步工具使用行为中的优势差异。

方法逐步拆解

▼

关键公式/算法解读

▼

实验设计分析

▼

关键图表

▼

局限性

▼

Agentic Reinforced Policy Optimization

一句话总结

背景与前置知识

RLVR（基于可验证奖励的强化学习）

多轮工具使用

LLM Agents

当前方法的局限

核心思想详解

现象解释

Entropy-based Adaptive Rollout（基于熵的自适应展开）

Advantage Attribution Estimation（优势归因估计）

方法逐步拆解

步骤一：Rollout 初始化

步骤二：熵变化监控

步骤三：基于熵的自适应分支

步骤四：终止条件

步骤五：优势归因估计

关键公式/算法解读

1. 智能体 RL 训练目标（公式1）

2. 智能体推理展开分解（公式2）

3. Token 熵计算（公式3）

4. 归一化熵变化（公式4）

5. 自适应分支概率（公式5）

6. 分层奖励设计（公式8）

7. 广义策略梯度定理（公式9）

实验设计分析

数据集覆盖

基线方法

关键实验结果

关键图表

局限性

基本信息

实验结果

个人思考