V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

一句话总结

V-JEPA 2 通过在超过 100 万小时互联网视频上进行自监督预训练，结合少量机器人交互数据进行后训练，构建了一个能够同时理解视频内容、预测未来状态并驱动机器人完成物理操作的统一世界模型。

背景与前置知识

▼

联合嵌入预测架构（JEPA）是 Yann LeCun 提出的一类自监督学习框架。与传统的生成模型（需要重建像素）不同，JEPA 在潜空间中进行预测：模型学会将输入映射到抽象表示，然后在表示空间中预测被遮蔽区域对应的表示。这避免了逐像素重建的冗余计算，让模型专注于学习高级语义特征。

Vision Transformer（ViT）是将 Transformer 架构应用于视觉任务的方法。它将图像或视频切分为固定大小的 patch，将每个 patch 视为一个"词"，然后通过自注意力机制捕捉 patch 之间的关系。V-JEPA 2 使用 ViT 作为核心编码器。

指数移动平均（EMA）是一种参数更新策略。在 V-JEPA 2 中，目标编码器不通过梯度更新，而是通过缓慢追踪上下文编码器的参数来更新。这保证了训练的稳定性，类似于 BYOL、DINO 等自监督方法中的教师-学生框架。

VQ-VAE（向量量化变分自编码器）是一种将连续表示映射到有限离散码本的技术。V-JEPA 2-AC 使用它来学习离散的潜在动作空间，使得模型可以用有限的"动作词"来描述视频中的变化。

核心思想详解

▼

V-JEPA 2 的核心理念可以用一个类比来理解：想象一个人在看大量的烹饪视频。他不需要有人告诉他每个动作叫什么名字，仅通过观看就能理解"搅拌""切菜""翻炒"这些动作的含义，并且能在脑中预测"下一步会发生什么"。V-JEPA 2 就是这样——通过"观看"海量视频来学习理解世界。

具体来说，V-JEPA 2 的设计包含三个递进的层次：

观看并理解（V-JEPA 2 预训练）：在海量视频上，通过遮蔽-预测的自监督任务学习视频的内在结构和物理规律。模型看到一部分视频帧，需要预测被遮蔽部分的潜在表示。
理解和回答（V-JEPA 2 + LLM 对齐）：将学到的视觉理解能力与语言模型结合，使其能够用自然语言回答关于视频内容的问题。
理解并行动（V-JEPA 2-AC）：在预训练基础上，用少量机器人操作视频教模型理解"动作"的概念，使其能够规划一系列动作来达成目标。关键创新在于：模型从互联网视频学到的物理世界知识可以迁移到机器人任务上，而只需要极少量的机器人数据。

方法逐步拆解

▼

第一阶段：V-JEPA 2 自监督预训练

1. 视频采样与编码：从数据集中采样短视频片段，将视频切分为时空 patch（例如 2 帧 × 16×16 像素的 patch），分别输入上下文编码器和目标编码器。

2. 遮蔽策略：使用 tube masking（管道遮蔽），即同一空间位置在所有时间步都被遮蔽。这种策略强迫模型学习时序变化，而非仅靠单帧信息进行推断。遮蔽比例通常较高（约 75-90%）。

3. 潜在预测：上下文编码器只处理可见的 patch，然后一个预测器网络根据可见 patch 的表示来预测被遮蔽位置的潜在表示。预测目标不是原始像素，而是目标编码器（EMA 更新）输出的表示。

4. 损失函数：使用平滑 L1 损失（Smooth L1 Loss）衡量预测的潜在表示与目标编码器输出之间的差异。仅对被遮蔽位置计算损失。

5. 模型规模：提供从 600M 到 6B 参数的多种规模，最大的 V-JEPA 2 模型在理解任务上表现最优。

第二阶段：LLM 对齐

1. 将 V-JEPA 2 的视觉编码器作为视觉骨干，通过投影层连接到大型语言模型。

2. 使用视频指令微调数据进行训练，使模型学会将视觉特征与自然语言描述对齐。

3. 在多个视频问答基准上进行评估。

第三阶段：V-JEPA 2-AC 动作条件世界模型

1. 潜在动作学习：从预训练的 V-JEPA 2 开始，添加一个动作编码器，使用 VQ-VAE 将视频中的变化量化为离散的潜在动作。

2. 动作条件预测：在预测器中加入潜在动作作为条件输入，使模型学会"执行这个动作后，世界会变成什么样"。

3. 后训练数据：使用 Droid 数据集中约 62 小时的无标签机器人操作视频。

4. 机器人规划：给定目标图像，使用模型预测控制（MPC）在潜空间中搜索最优的潜在动作序列。

关键公式/算法解读

▼

实验设计分析

▼

关键图表

▼

局限性

▼