一句话总结
VL-JEPA 提出了一种基于联合嵌入预测架构的视觉语言模型,通过在连续嵌入空间而非离散 token 空间中进行预测,用更少的可训练参数实现了更强的多模态任务能力。
背景与前置知识
▼自回归视觉语言模型 (VLM):当前主流的视觉语言模型(如 LLaVA、InstructBLIP、Qwen-VL)采用"token 生成"范式——接收视觉输入和文本查询,自回归地逐 token 生成文本回复。这种方式虽然直观,但存在两个根本问题:(1) 训练成本高,模型需要同时学习任务相关语义和任务无关的表面语言特征(如措辞风格、同义改写);(2) 实时推理延迟大,必须完成整个 token 序列生成后才能获取语义。
JEPA (Joint Embedding Predictive Architecture):由 Yann LeCun 倡导的架构范式,核心思想是在抽象的嵌入空间中进行预测,而非在原始数据空间中重建。之前的工作包括 I-JEPA(图像)、V-JEPA(视频)等,但它们只针对单一模态。VL-JEPA 是首个面向通用视觉语言任务的 JEPA 模型。
CLIP 式对比学习:CLIP 通过 InfoNCE 损失将图像和文本对齐到共享嵌入空间,支持零样本分类和跨模态检索。但它无法生成文本,任务覆盖有限。
InfoNCE 损失:对比学习中的经典损失函数,包含两部分——表示对齐项(拉近正样本对)和均匀性正则项(推开负样本对),天然防止表示坍塌。
核心思想详解
▼VL-JEPA 的核心洞见可以用一个类比来理解:传统 VLM 就像让学生逐字默写答案,而 VL-JEPA 则是让学生理解答案的含义即可。
想象你问"这张图里有什么动物?"——答案可能是"一只猫"、"这是一只猫"、"图中有猫"等等。这些在 token 空间中是完全不同的序列(几乎无重叠 token),但它们的语义是一致的。传统 VLM 必须学习所有这些变体,浪费了大量建模能力。VL-JEPA 通过 Y-Encoder 将这些语义等价的回答映射到嵌入空间中的相近点,将多峰的离散分布压缩为紧凑的单峰连续分布,大大简化了学习目标。
这种设计还带来了一个独特优势:选择性解码。因为预测是在嵌入空间中非自回归进行的,模型可以持续输出语义嵌入流,仅在检测到语义发生显著变化时才调用轻量级文本解码器。这对于智能眼镜、机器人等实时视频应用至关重要。