AcquisitionSynthesis: Targeted Data Generation using Acquisition Functions

Ishika Agarwal, Sofia Stoica, Emre Can Acikgoz, Pradeep Natarajan, Mahdi Namazifar, Jiaqi Ma, Dilek Hakkani-Tür 2026-05-13
主动学习 Acquisition Function 奖励模型 LLM合成数据 GRPO 数学推理 医学QA 代码

一句话总结

将主动学习中的 acquisition function 作为 GRPO 强化学习的奖励信号,训练 LLM 生成器产出对学生模型最有信息量的训练数据,在数学、医学 QA 和编程任务上实现 2-7% 的分布内提升,同时有效防止灾难性遗忘(OOD 性能提升 3%)。

背景与前置知识

主动学习与 Acquisition Function

主动学习中,模型主动选择最有价值的未标注样本请求人工标注。Acquisition function 用于量化一个数据点对模型学习的潜在贡献,常见策略包括不确定性采样、多样性采样等。

GRPO (Group Relative Policy Optimization)

一种强化学习算法,通过对一组生成样本进行组内比较来计算优势,不需要单独的 critic 模型,比 PPO 更简单高效。

灾难性遗忘

模型在学习新任务时忘记之前学过的知识。在 LLM 微调中,模型可能在某个领域性能提升但在其他领域下降。

拒绝采样 vs 定向生成

传统方法大量生成数据后筛选(低效),而 AcquisitionSynthesis 学习直接生成高价值样本(高效、可解释)。

核心思想详解

想象你是一位教练,训练一位学生运动员。传统方法是让学生做固定训练动作。如果动作太简单→没进步;太难→受伤或放弃。

更好的策略是持续观察学生的弱点,设计"刚好超出当前能力"的任务——恰好在"最近发展区"范围内。

本文的核心洞察:主动学习的 acquisition function 正好提供了这个标准!它衡量的是一个数据点对当前模型的"信息量"。将这些 acquisition function 作为强化学习的奖励信号,训练数据生成器产出对学生模型最有用的样本。

框架的关键在于它自洽:同一个模型既是生成器又是学生模型。生成器通过 GRPO 学会生成对自己(的镜像)最有用的数据——这是一种模型感知的自我改进。

方法逐步拆解

关键公式/算法解读

实验设计分析

关键图表

局限性