一句话总结
DeepSeekMath 通过从 Common Crawl 中精选 120B 数学 token 进行持续预训练,并提出 GRPO(Group Relative Policy Optimization)强化学习算法,使 7B 模型在竞赛级 MATH 基准上达到 51.7%,接近 GPT-4 水平。
背景与前置知识
▼数学推理与语言模型
数学推理是语言模型面临的核心挑战之一,因其要求复杂的多步逻辑推理和精确的计算能力。此前,闭源模型 GPT-4 和 Gemini-Ultra 在数学推理方面遥遥领先,而开源模型的表现则显著落后。
PPO(Proximal Policy Optimization)
PPO 是一种经典的 actor-critic 强化学习算法,广泛应用于 LLM 的 RLHF 阶段。其核心思路是通过截断概率比(clipping)来限制策略更新幅度,保证训练稳定性。但 PPO 需要同时维护策略模型(policy model)和价值函数(value function),后者通常与策略模型同等规模,带来显著的内存和计算开销。
RL for LLM 的关键挑战
在 LLM 场景下,奖励模型通常只对最后一个 token 给出奖励分数,这使得训练一个在每个 token 上都准确的价值函数变得困难。同时,PPO 中使用 GAE(Generalized Advantage Estimation)计算优势函数时依赖价值函数的质量。
核心思想详解
▼DeepSeekMath 的核心贡献分为两大支柱:
支柱一:可扩展的数学数据工程
论文提出了一个迭代式的数据收集管道,从 Common Crawl 的 40B HTML 页面中筛选出 120B 数学相关 token(DeepSeekMath Corpus),规模约为 OpenWebMath 的 9 倍、Minerva 所用数据的 7 倍。关键创新在于利用 fastText 分类器配合人工标注的迭代式领域发现方法,逐步扩充正例种子集合。
支柱二:GRPO 算法
论文提出的 Group Relative Policy Optimization 是 PPO 的高效变体。其核心思想极其优雅:放弃 PPO 中独立的价值模型(critic),转而对同一问题采样一组输出,用组内奖励的统计量(均值和标准差)来归一化计算优势函数。这一设计既减少了约一半的模型内存开销,又天然契合了奖励模型的比较性质(reward model 本身就是在同一问题的不同输出之间做比较训练的)。