ELF: Embedded Language Flows

一句话总结

ELF 提出了一种基于连续时间 Flow Matching 的扩散语言模型，在连续嵌入空间中完成去噪，仅在最后一步做离散化，从而自然兼容 CFG 等图像扩散中的成熟技术，以更少的采样步数和更少的训练 token 超越了现有离散和连续扩散语言模型。

▼

扩散语言模型 (DLM)：将扩散模型用于文本生成，分为连续 DLM（在连续嵌入空间去噪）和离散 DLM（直接在 token 空间做扩散）。目前离散 DLM 效果更好，但连续 DLM 是否天然低效尚未有定论。

Flow Matching：一种连续时间生成框架，定义从噪声到数据的连续流路径 z_t = t*x + (1-t)*ε，通过学习速度场 v = dx/dt = x - ε 来实现生成。相比 DDPM 的离散时间步，Flow Matching 使用连续时间 ODE/SDE。

Classifier-Free Guidance (CFG)：在推理时通过线性外推来控制生成质量和多样性的权衡。最初用于图像扩散，ELF 将其自然引入文本生成。

x-prediction vs v-prediction：Flow Matching 中网络可以预测 clean data x、速度 v 或噪声 ε。ELF 采用 x-prediction，因为预测 clean embedding 与最后一步的解码目标天然对齐，便于共享权重。

▼

类比：可以把 ELF 理解为一个"连续空间翻译器"——想象你要把一段中文翻译成英文（离散 token → 离散 token），但你选择在"语义空间"（连续嵌入）中完成大部分工作，只在最后一步才锁定具体的英文单词。这样做的好处是语义空间中的操作更平滑、更自由，不会因为过早承诺某个词而限制后续的优化。

核心直觉：传统连续 DLM 在每一步都计算 token 级别的交叉熵损失，这迫使模型在去噪早期就要做出词汇选择，限制了流动动力学的灵活性。ELF 的洞察是——"让连续空间中的流动尽可能自由，只在最后一刻做离散决策"。这就像写文章先打腹稿（连续语义），最后才落笔成字（离散 token）。

▼

▼

▼

▼

▼