VL-JEPA: Joint Embedding Predictive Architecture for Vision-language

一句话总结

VL-JEPA 提出了一种基于联合嵌入预测架构的视觉语言模型，通过在连续嵌入空间而非离散 token 空间中进行预测，用更少的可训练参数实现了更强的多模态任务能力。

背景与前置知识

▼

自回归视觉语言模型 (VLM)：当前主流的视觉语言模型（如 LLaVA、InstructBLIP、Qwen-VL）采用"token 生成"范式——接收视觉输入和文本查询，自回归地逐 token 生成文本回复。这种方式虽然直观，但存在两个根本问题：(1) 训练成本高，模型需要同时学习任务相关语义和任务无关的表面语言特征（如措辞风格、同义改写）；(2) 实时推理延迟大，必须完成整个 token 序列生成后才能获取语义。

JEPA (Joint Embedding Predictive Architecture)：由 Yann LeCun 倡导的架构范式，核心思想是在抽象的嵌入空间中进行预测，而非在原始数据空间中重建。之前的工作包括 I-JEPA（图像）、V-JEPA（视频）等，但它们只针对单一模态。VL-JEPA 是首个面向通用视觉语言任务的 JEPA 模型。

CLIP 式对比学习：CLIP 通过 InfoNCE 损失将图像和文本对齐到共享嵌入空间，支持零样本分类和跨模态检索。但它无法生成文本，任务覆盖有限。

InfoNCE 损失：对比学习中的经典损失函数，包含两部分——表示对齐项（拉近正样本对）和均匀性正则项（推开负样本对），天然防止表示坍塌。

核心思想详解

▼

VL-JEPA 的核心洞见可以用一个类比来理解：传统 VLM 就像让学生逐字默写答案，而 VL-JEPA 则是让学生理解答案的含义即可。

想象你问"这张图里有什么动物？"——答案可能是"一只猫"、"这是一只猫"、"图中有猫"等等。这些在 token 空间中是完全不同的序列（几乎无重叠 token），但它们的语义是一致的。传统 VLM 必须学习所有这些变体，浪费了大量建模能力。VL-JEPA 通过 Y-Encoder 将这些语义等价的回答映射到嵌入空间中的相近点，将多峰的离散分布压缩为紧凑的单峰连续分布，大大简化了学习目标。

这种设计还带来了一个独特优势：选择性解码。因为预测是在嵌入空间中非自回归进行的，模型可以持续输出语义嵌入流，仅在检测到语义发生显著变化时才调用轻量级文本解码器。这对于智能眼镜、机器人等实时视频应用至关重要。

方法逐步拆解

▼

关键公式/算法解读

▼

实验设计分析

▼

关键图表

▼

局限性

▼

VL-JEPA: Joint Embedding Predictive Architecture for Vision-language

一句话总结

背景与前置知识

核心思想详解

方法逐步拆解

步骤 1：视觉编码 (X-Encoder)

步骤 2：条件预测 (Predictor)

步骤 3：目标嵌入 (Y-Encoder)

步骤 4：推理解码 (Y-Decoder)

步骤 5：训练目标

关键公式/算法解读

实验设计分析

为什么选这些数据集？

关键对比实验

结果说明什么？

关键图表

局限性

基本信息

实验结果

个人思考