一句话总结
V-JEPA 2 通过在超过 100 万小时互联网视频上进行自监督预训练,结合少量机器人交互数据进行后训练,构建了一个能够同时理解视频内容、预测未来状态并驱动机器人完成物理操作的统一世界模型。
背景与前置知识
▼联合嵌入预测架构(JEPA)是 Yann LeCun 提出的一类自监督学习框架。与传统的生成模型(需要重建像素)不同,JEPA 在潜空间中进行预测:模型学会将输入映射到抽象表示,然后在表示空间中预测被遮蔽区域对应的表示。这避免了逐像素重建的冗余计算,让模型专注于学习高级语义特征。
Vision Transformer(ViT)是将 Transformer 架构应用于视觉任务的方法。它将图像或视频切分为固定大小的 patch,将每个 patch 视为一个"词",然后通过自注意力机制捕捉 patch 之间的关系。V-JEPA 2 使用 ViT 作为核心编码器。
指数移动平均(EMA)是一种参数更新策略。在 V-JEPA 2 中,目标编码器不通过梯度更新,而是通过缓慢追踪上下文编码器的参数来更新。这保证了训练的稳定性,类似于 BYOL、DINO 等自监督方法中的教师-学生框架。
VQ-VAE(向量量化变分自编码器)是一种将连续表示映射到有限离散码本的技术。V-JEPA 2-AC 使用它来学习离散的潜在动作空间,使得模型可以用有限的"动作词"来描述视频中的变化。
核心思想详解
▼V-JEPA 2 的核心理念可以用一个类比来理解:想象一个人在看大量的烹饪视频。他不需要有人告诉他每个动作叫什么名字,仅通过观看就能理解"搅拌""切菜""翻炒"这些动作的含义,并且能在脑中预测"下一步会发生什么"。V-JEPA 2 就是这样——通过"观看"海量视频来学习理解世界。
具体来说,V-JEPA 2 的设计包含三个递进的层次:
- 观看并理解(V-JEPA 2 预训练):在海量视频上,通过遮蔽-预测的自监督任务学习视频的内在结构和物理规律。模型看到一部分视频帧,需要预测被遮蔽部分的潜在表示。
- 理解和回答(V-JEPA 2 + LLM 对齐):将学到的视觉理解能力与语言模型结合,使其能够用自然语言回答关于视频内容的问题。
- 理解并行动(V-JEPA 2-AC):在预训练基础上,用少量机器人操作视频教模型理解"动作"的概念,使其能够规划一系列动作来达成目标。关键创新在于:模型从互联网视频学到的物理世界知识可以迁移到机器人任务上,而只需要极少量的机器人数据。