AcquisitionSynthesis: Targeted Data Generation using Acquisition Functions

一句话总结

将主动学习中的 acquisition function 作为 GRPO 强化学习的奖励信号，训练 LLM 生成器产出对学生模型最有信息量的训练数据，在数学、医学 QA 和编程任务上实现 2-7% 的分布内提升，同时有效防止灾难性遗忘（OOD 性能提升 3%）。

背景与前置知识

▼

主动学习与 Acquisition Function

主动学习中，模型主动选择最有价值的未标注样本请求人工标注。Acquisition function 用于量化一个数据点对模型学习的潜在贡献，常见策略包括不确定性采样、多样性采样等。

GRPO (Group Relative Policy Optimization)

一种强化学习算法，通过对一组生成样本进行组内比较来计算优势，不需要单独的 critic 模型，比 PPO 更简单高效。

灾难性遗忘

模型在学习新任务时忘记之前学过的知识。在 LLM 微调中，模型可能在某个领域性能提升但在其他领域下降。

拒绝采样 vs 定向生成

传统方法大量生成数据后筛选（低效），而 AcquisitionSynthesis 学习直接生成高价值样本（高效、可解释）。

核心思想详解

▼

想象你是一位教练，训练一位学生运动员。传统方法是让学生做固定训练动作。如果动作太简单→没进步；太难→受伤或放弃。

更好的策略是持续观察学生的弱点，设计"刚好超出当前能力"的任务——恰好在"最近发展区"范围内。

本文的核心洞察：主动学习的 acquisition function 正好提供了这个标准！它衡量的是一个数据点对当前模型的"信息量"。将这些 acquisition function 作为强化学习的奖励信号，训练数据生成器产出对学生模型最有用的样本。

框架的关键在于它自洽：同一个模型既是生成器又是学生模型。生成器通过 GRPO 学会生成对自己（的镜像）最有用的数据——这是一种模型感知的自我改进。

方法逐步拆解

▼

关键公式/算法解读

▼

实验设计分析

▼

关键图表

▼

局限性

▼

AcquisitionSynthesis: Targeted Data Generation using Acquisition Functions

一句话总结

背景与前置知识

主动学习与 Acquisition Function

GRPO (Group Relative Policy Optimization)

灾难性遗忘

拒绝采样 vs 定向生成

核心思想详解

方法逐步拆解

步骤 1：定义 5 种 Acquisition 奖励

步骤 2：GRPO 训练生成器

步骤 3-5：生成、训练、评估

关键公式/算法解读

Confidence 计算

GRPO 的训练机制

实验设计分析

三个任务的选择

ID vs OOD 的双重评估

关键发现

关键图表

局限性

基本信息

实验结果

个人思考