Dynamic Context Evolution for Scalable Synthetic Data Generation

Ryan Lingo, Rajeev Chhajer 2026-04-08
合成数据 模式坍缩 动态上下文 语义记忆 尾部采样 LLM多样性

一句话总结

提出动态上下文演化(DCE)框架,通过口头化尾部采样(VTS)、语义记忆和自适应提示演化三种机制解决 LLM 在批量生成中的跨批次模式坍缩问题,在三个领域上实现 0% 的坍缩率(朴素基线 5.6%),每次生成仅需约 $0.50/千条。

背景与前置知识

跨批次模式坍缩

本文定义的新现象。当 LLM 被反复独立提示(每次清空上下文)时,生成内容的多样性逐渐丧失——相同或高度相似的概念反复出现。前 30 批主题多样,到第 50 批开始重复,到第 200 批时 34% 与前 50 批近乎重复。

口头化概率估计

让 LLM 自我评估其输出内容的"可预测性"。不要求严格校准的概率,只要提供概念间的相对排序即可。

语义去重与 HDBSCAN

将文本嵌入向量空间后计算余弦相似度来判断语义重复。HDBSCAN 是一种不预设聚类数量的密度聚类算法。

温度缩放与核采样

标准 token 级别多样性控制方法。本文测试的 gpt-5-mini API 不暴露这些参数,使得 token 级别干预不可用。

核心思想详解

DCE 用三种互补策略解决"创意枯竭"问题:

  1. VTS(口头化尾部采样):每次想出创意,让模型自评"别人是否也能轻易想到"?太容易想到的就丢弃。
  2. 语义记忆:维护"创意数据库",防止不同批次的语义重复。
  3. 自适应提示演化:每次生成前回顾记忆库,引导模型聚焦尚未探索的概念领域。

三者的组合效果是 1+1+1 > 3:VTS 过滤显而易见的,去重防止重复,提示演化主动引导新方向。单独任何一个不够,三者合力消除模式坍缩。

方法逐步拆解

关键公式/算法解读

实验设计分析

关键图表

局限性