一句话总结
GSPO 提出用序列似然(sequence likelihood)定义重要性比率替代 GRPO 的 token 级重要性比率,从根源上解决 GRPO 在大规模 RL 训练中的不稳定性问题,并在 Qwen3 系列模型上验证了其优越性。
背景与前置知识
▼GRPO(Group Relative Policy Optimization)是当前训练大语言模型的主流 RL 算法之一。它通过为同一查询生成一组响应(group),并利用组内奖励的相对排名来估计优势函数(advantage),从而绕过了 PPO 中对价值模型(value model)的依赖。GRPO 的核心优化目标对每个 token 使用 token 级重要性比率 w_{i,t}(θ) = π_θ(y_{i,t}|x, y_{i,<t}) / π_{θ_old}(y_{i,t}|x, y_{i,<t}),并通过裁剪(clipping)机制限制策略更新幅度。
Token 级重要性比率是 PPO 和 GRPO 共同的设计选择,即在序列的每个 token 位置分别计算新旧策略的概率比值。这一设计在理论上源于重要性采样(importance sampling),旨在纠正从旧策略采样带来的分布偏差。
RLVR(Reinforcement Learning from Verifiable Rewards)是指利用可验证奖励(如数学题的正确性、代码的通过率)进行强化学习的范式。随着模型规模和响应长度的增长,RLVR 的训练稳定性成为关键挑战。
核心思想详解
▼GSPO 的核心洞察在于:GRPO 的 token 级重要性比率是对重要性采样的错误应用。
重要性采样的基本原理要求通过多个样本来估计期望值,即用 π_tar(z)/π_beh(z) 对函数值进行加权。但在 GRPO 中,每个 token 位置的重要性权重仅基于单个样本(即该位置实际生成的 token),而非对整个 next-token 分布进行采样平均。因此,这些 token 级权重无法有效纠正分布偏差,反而引入了高方差的训练噪声。
这种噪声会随着响应长度的增加而累积,并在裁剪机制的作用下被放大,最终导致灾难性的模型崩溃(model collapse)。一旦崩溃发生,即使回退到之前的检查点并精心调整超参数,也无法恢复训练。
GSPO 的解决方案是:将优化单元从 token 级别提升到序列级别。具体而言,GSPO 基于序列似然定义重要性比率 s_i(θ) = [π_θ(y_i|x) / π_{θ_old}(y_i|x)]^{1/|y_i|},在序列整体层面执行裁剪、奖励和优化,使得优化的单元与奖励的单元(整个响应)完全一致。