Dynamic Context Evolution for Scalable Synthetic Data Generation

一句话总结

提出动态上下文演化（DCE）框架，通过口头化尾部采样（VTS）、语义记忆和自适应提示演化三种机制解决 LLM 在批量生成中的跨批次模式坍缩问题，在三个领域上实现 0% 的坍缩率（朴素基线 5.6%），每次生成仅需约 $0.50/千条。

背景与前置知识

▼

跨批次模式坍缩

本文定义的新现象。当 LLM 被反复独立提示（每次清空上下文）时，生成内容的多样性逐渐丧失——相同或高度相似的概念反复出现。前 30 批主题多样，到第 50 批开始重复，到第 200 批时 34% 与前 50 批近乎重复。

口头化概率估计

让 LLM 自我评估其输出内容的"可预测性"。不要求严格校准的概率，只要提供概念间的相对排序即可。

语义去重与 HDBSCAN

将文本嵌入向量空间后计算余弦相似度来判断语义重复。HDBSCAN 是一种不预设聚类数量的密度聚类算法。

温度缩放与核采样

标准 token 级别多样性控制方法。本文测试的 gpt-5-mini API 不暴露这些参数，使得 token 级别干预不可用。

核心思想详解

▼

DCE 用三种互补策略解决"创意枯竭"问题：

VTS（口头化尾部采样）：每次想出创意，让模型自评"别人是否也能轻易想到"？太容易想到的就丢弃。
语义记忆：维护"创意数据库"，防止不同批次的语义重复。
自适应提示演化：每次生成前回顾记忆库，引导模型聚焦尚未探索的概念领域。

三者的组合效果是 1+1+1 > 3：VTS 过滤显而易见的，去重防止重复，提示演化主动引导新方向。单独任何一个不够，三者合力消除模式坍缩。

方法逐步拆解

▼

关键公式/算法解读

▼

实验设计分析

▼

关键图表

▼

局限性

▼

Dynamic Context Evolution for Scalable Synthetic Data Generation

一句话总结

背景与前置知识

跨批次模式坍缩

口头化概率估计

语义去重与 HDBSCAN

温度缩放与核采样

核心思想详解

方法逐步拆解

步骤 0：初始化

步骤 1：构造提示

步骤 2：VTS 过滤

步骤 3：语义去重

步骤 4-5：更新记忆 + 循环

四种轮换策略

关键公式/算法解读

有效多样性体积 (EDV)

坍缩率

实验设计分析

三领域的难度梯度

消融设计的关键发现

关键图表

局限性

基本信息

实验结果

个人思考