Group Sequence Policy Optimization

一句话总结

GSPO 提出用序列似然（sequence likelihood）定义重要性比率替代 GRPO 的 token 级重要性比率，从根源上解决 GRPO 在大规模 RL 训练中的不稳定性问题，并在 Qwen3 系列模型上验证了其优越性。

背景与前置知识

▼

GRPO（Group Relative Policy Optimization）是当前训练大语言模型的主流 RL 算法之一。它通过为同一查询生成一组响应（group），并利用组内奖励的相对排名来估计优势函数（advantage），从而绕过了 PPO 中对价值模型（value model）的依赖。GRPO 的核心优化目标对每个 token 使用 token 级重要性比率 w_{i,t}(θ) = π_θ(y_{i,t}|x, y_{i,<t}) / π_{θ_old}(y_{i,t}|x, y_{i,<t})，并通过裁剪（clipping）机制限制策略更新幅度。

Token 级重要性比率是 PPO 和 GRPO 共同的设计选择，即在序列的每个 token 位置分别计算新旧策略的概率比值。这一设计在理论上源于重要性采样（importance sampling），旨在纠正从旧策略采样带来的分布偏差。

RLVR（Reinforcement Learning from Verifiable Rewards）是指利用可验证奖励（如数学题的正确性、代码的通过率）进行强化学习的范式。随着模型规模和响应长度的增长，RLVR 的训练稳定性成为关键挑战。

核心思想详解

▼

GSPO 的核心洞察在于：GRPO 的 token 级重要性比率是对重要性采样的错误应用。

重要性采样的基本原理要求通过多个样本来估计期望值，即用 π_tar(z)/π_beh(z) 对函数值进行加权。但在 GRPO 中，每个 token 位置的重要性权重仅基于单个样本（即该位置实际生成的 token），而非对整个 next-token 分布进行采样平均。因此，这些 token 级权重无法有效纠正分布偏差，反而引入了高方差的训练噪声。

这种噪声会随着响应长度的增加而累积，并在裁剪机制的作用下被放大，最终导致灾难性的模型崩溃（model collapse）。一旦崩溃发生，即使回退到之前的检查点并精心调整超参数，也无法恢复训练。

GSPO 的解决方案是：将优化单元从 token 级别提升到序列级别。具体而言，GSPO 基于序列似然定义重要性比率 s_i(θ) = [π_θ(y_i|x) / π_{θ_old}(y_i|x)]^{1/|y_i|}，在序列整体层面执行裁剪、奖励和优化，使得优化的单元与奖励的单元（整个响应）完全一致。

方法逐步拆解

▼

关键公式/算法解读

▼

实验设计分析

▼

关键图表

▼

局限性

▼

Group Sequence Policy Optimization

一句话总结

背景与前置知识

核心思想详解

方法逐步拆解

1. 序列似然的定义

2. 长度归一化的序列级重要性比率

3. 序列级裁剪

4. 组级优势估计

5. 梯度分析的关键差异

6. GSPO-token 变体

关键公式/算法解读

实验设计分析

关键图表

局限性

基本信息

实验结果

个人思考