From Seeing to Simulating: Generative High-Fidelity Simulation with Digital Cousins for Generalizable Robot Learning and Evaluation

Jasper Lu, Zhenhao Shen, Yuanfei Wang, Shugao Liu, et al. 2026-04-17
Digital Cousins 场景生成 全景图 sim-to-real 世界模型 泛化学习

一句话总结

WorldComposer 提出"数字表亲"(Digital Cousins)概念,通过从真实世界的全景照片生成高保真仿真场景,再通过语义和几何编辑产生大量多样化的变体场景,为机器人学习提供无限可扩展、高保真度的训练和评估平台。

背景与前置知识

数字孪生 vs 数字表亲

数字孪生(Digital Twin)是真实场景的精确虚拟复制品。数字表亲(Digital Cousins)是本文提出的新概念——保留原始场景的结构逻辑,但在外观、布局、物体配置上有系统性变化。"表亲"提供了一种"一对多"的场景生成能力,比孪生更适合训练泛化策略。

3D Gaussian Splatting (3DGS) & Marble

3DGS 将场景表示为3D高斯原语集合,实现照片级真实的新视角合成。Marble 是 World Labs 的多模态世界模型,可以从单张全景图生成完整的3D场景。

Point-to-Plane ICP

点云配准算法,通过最小化点到对应点所在平面的距离来对齐两个点云,比 Point-to-Point ICP 收敛更快更稳定。

核心思想详解

核心洞察:与其花费大量精力精确重建每一个真实场景(数字孪生),不如从一个真实场景出发,利用生成模型创造大量存在系统性差异的变体场景(数字表亲)。

类比:想象你是一个演员。如果只在同一个舞台上排练(数字孪生),换一个舞台就可能出错。但如果你在100个不同的"表亲舞台"上排练过——有些布景颜色不同,有些家具摆放不同,有些光照不同——那么无论把你放在什么样的舞台上,你都能自如表演。

三大流程

  • 全景图 → Marble → 3DGS场景 + 碰撞网格
  • 自然语言提示编辑 → 数字表亲变体
  • 多房间拼接 → 完整可导航房屋环境

方法逐步拆解

关键公式/算法解读

实验设计分析

关键图表

局限性