一句话总结
ELF 提出了一种基于连续时间 Flow Matching 的扩散语言模型,在连续嵌入空间中完成去噪,仅在最后一步做离散化,从而自然兼容 CFG 等图像扩散中的成熟技术,以更少的采样步数和更少的训练 token 超越了现有离散和连续扩散语言模型。
背景与前置知识
▼扩散语言模型 (DLM):将扩散模型用于文本生成,分为连续 DLM(在连续嵌入空间去噪)和离散 DLM(直接在 token 空间做扩散)。目前离散 DLM 效果更好,但连续 DLM 是否天然低效尚未有定论。
Flow Matching:一种连续时间生成框架,定义从噪声到数据的连续流路径 z_t = t*x + (1-t)*ε,通过学习速度场 v = dx/dt = x - ε 来实现生成。相比 DDPM 的离散时间步,Flow Matching 使用连续时间 ODE/SDE。
Classifier-Free Guidance (CFG):在推理时通过线性外推来控制生成质量和多样性的权衡。最初用于图像扩散,ELF 将其自然引入文本生成。
x-prediction vs v-prediction:Flow Matching 中网络可以预测 clean data x、速度 v 或噪声 ε。ELF 采用 x-prediction,因为预测 clean embedding 与最后一步的解码目标天然对齐,便于共享权重。
核心思想详解
▼类比:可以把 ELF 理解为一个"连续空间翻译器"——想象你要把一段中文翻译成英文(离散 token → 离散 token),但你选择在"语义空间"(连续嵌入)中完成大部分工作,只在最后一步才锁定具体的英文单词。这样做的好处是语义空间中的操作更平滑、更自由,不会因为过早承诺某个词而限制后续的优化。
核心直觉:传统连续 DLM 在每一步都计算 token 级别的交叉熵损失,这迫使模型在去噪早期就要做出词汇选择,限制了流动动力学的灵活性。ELF 的洞察是——"让连续空间中的流动尽可能自由,只在最后一刻做离散决策"。这就像写文章先打腹稿(连续语义),最后才落笔成字(离散 token)。