DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Mingchuan Zhang, Y.K. Li, Y. Wu, Daya Guo 2024年2月
Mathematical Reasoning GRPO Reinforcement Learning LLM DeepSeek PPO Data Selection Common Crawl

一句话总结

DeepSeekMath 通过从 Common Crawl 中精选 120B 数学 token 进行持续预训练,并提出 GRPO(Group Relative Policy Optimization)强化学习算法,使 7B 模型在竞赛级 MATH 基准上达到 51.7%,接近 GPT-4 水平。

背景与前置知识

数学推理与语言模型

数学推理是语言模型面临的核心挑战之一,因其要求复杂的多步逻辑推理和精确的计算能力。此前,闭源模型 GPT-4 和 Gemini-Ultra 在数学推理方面遥遥领先,而开源模型的表现则显著落后。

PPO(Proximal Policy Optimization)

PPO 是一种经典的 actor-critic 强化学习算法,广泛应用于 LLM 的 RLHF 阶段。其核心思路是通过截断概率比(clipping)来限制策略更新幅度,保证训练稳定性。但 PPO 需要同时维护策略模型(policy model)和价值函数(value function),后者通常与策略模型同等规模,带来显著的内存和计算开销。

RL for LLM 的关键挑战

在 LLM 场景下,奖励模型通常只对最后一个 token 给出奖励分数,这使得训练一个在每个 token 上都准确的价值函数变得困难。同时,PPO 中使用 GAE(Generalized Advantage Estimation)计算优势函数时依赖价值函数的质量。

核心思想详解

DeepSeekMath 的核心贡献分为两大支柱:

支柱一:可扩展的数学数据工程

论文提出了一个迭代式的数据收集管道,从 Common Crawl 的 40B HTML 页面中筛选出 120B 数学相关 token(DeepSeekMath Corpus),规模约为 OpenWebMath 的 9 倍、Minerva 所用数据的 7 倍。关键创新在于利用 fastText 分类器配合人工标注的迭代式领域发现方法,逐步扩充正例种子集合。

支柱二:GRPO 算法

论文提出的 Group Relative Policy Optimization 是 PPO 的高效变体。其核心思想极其优雅:放弃 PPO 中独立的价值模型(critic),转而对同一问题采样一组输出,用组内奖励的统计量(均值和标准差)来归一化计算优势函数。这一设计既减少了约一半的模型内存开销,又天然契合了奖励模型的比较性质(reward model 本身就是在同一问题的不同输出之间做比较训练的)。

方法逐步拆解

关键公式/算法解读

实验设计分析

关键图表

局限性