Group Sequence Policy Optimization

Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin 2025年7月
GSPOSequence-level Policy OptimizationRLVRLLM TrainingQwen3GRPOImportance SamplingMoE

一句话总结

GSPO 提出用序列似然(sequence likelihood)定义重要性比率替代 GRPO 的 token 级重要性比率,从根源上解决 GRPO 在大规模 RL 训练中的不稳定性问题,并在 Qwen3 系列模型上验证了其优越性。

背景与前置知识

GRPO(Group Relative Policy Optimization)是当前训练大语言模型的主流 RL 算法之一。它通过为同一查询生成一组响应(group),并利用组内奖励的相对排名来估计优势函数(advantage),从而绕过了 PPO 中对价值模型(value model)的依赖。GRPO 的核心优化目标对每个 token 使用 token 级重要性比率 w_{i,t}(θ) = π_θ(y_{i,t}|x, y_{i,<t}) / π_{θ_old}(y_{i,t}|x, y_{i,<t}),并通过裁剪(clipping)机制限制策略更新幅度。

Token 级重要性比率是 PPO 和 GRPO 共同的设计选择,即在序列的每个 token 位置分别计算新旧策略的概率比值。这一设计在理论上源于重要性采样(importance sampling),旨在纠正从旧策略采样带来的分布偏差。

RLVR(Reinforcement Learning from Verifiable Rewards)是指利用可验证奖励(如数学题的正确性、代码的通过率)进行强化学习的范式。随着模型规模和响应长度的增长,RLVR 的训练稳定性成为关键挑战。

核心思想详解

GSPO 的核心洞察在于:GRPO 的 token 级重要性比率是对重要性采样的错误应用

重要性采样的基本原理要求通过多个样本来估计期望值,即用 π_tar(z)/π_beh(z) 对函数值进行加权。但在 GRPO 中,每个 token 位置的重要性权重仅基于单个样本(即该位置实际生成的 token),而非对整个 next-token 分布进行采样平均。因此,这些 token 级权重无法有效纠正分布偏差,反而引入了高方差的训练噪声。

这种噪声会随着响应长度的增加而累积,并在裁剪机制的作用下被放大,最终导致灾难性的模型崩溃(model collapse)。一旦崩溃发生,即使回退到之前的检查点并精心调整超参数,也无法恢复训练。

GSPO 的解决方案是:将优化单元从 token 级别提升到序列级别。具体而言,GSPO 基于序列似然定义重要性比率 s_i(θ) = [π_θ(y_i|x) / π_{θ_old}(y_i|x)]^{1/|y_i|},在序列整体层面执行裁剪、奖励和优化,使得优化的单元与奖励的单元(整个响应)完全一致。

方法逐步拆解

关键公式/算法解读

实验设计分析

关键图表

局限性