ComSim: Building Scalable Real-World Robot Data Generation via Compositional Simulation

Yiran Qin, Jiahua Ma, Li Kang, Wenzhan Li, et al. 2026-04-13
组合仿真 机器人数据 Real-Sim-Real 神经仿真 动作-视频生成

一句话总结

ComSim 提出"组合仿真"新范式,通过融合经典仿真(精确的动作-视频配对)和神经仿真(真实感渲染),构建闭环 "真实→仿真→真实"数据增强流水线,仅需少量真实数据就能生成大规模、多样化且动作一致的训练数据。

背景与前置知识

经典仿真 vs 神经仿真

经典仿真(MuJoCo, Isaac Lab, ManiSkill)使用物理引擎模拟交互,优势是精确记录动作-视频配对,缺点是视觉不真实。神经仿真使用视频生成模型生成数据,优点是视觉真实,缺点是存在"幻觉"——生成的视频可能在物理上不一致,导致动作与视频对应关系被破坏。

领域鸿沟

经典仿真保证了动作精确性但视觉不真实;神经仿真保证了视觉真实性但动作控制不精确。两者各自擅长解决领域鸿沟的不同方面。

扩散模型与 DiT

扩散模型通过逐步加噪然后学习去噪来生成新样本。DiT(Diffusion Transformer)将 Transformer 架构应用于扩散模型。控制动态指机器人动作序列;视觉动态指摄像头观测图像序列。

核心思想详解

类比:想象你要为电影场景制作特效。传统CGI(经典仿真)每一帧都能精确控制但不够真实;AI视频生成(神经仿真)画面真实但无法精确控制角色动作。ComSim的做法是:先用CGI生成精确的动作画面,然后训练AI模型把CGI画面"翻译"成真实画面,同时确保角色动作保持不变。

Real-Sim-Real 流水线

  • Real→Sim:用少量真实数据在仿真中复现场景和动作,生成配对的"真实视频-仿真视频"数据
  • Sim→Real(训练):利用配对数据训练神经仿真器,学会将仿真视频转换为真实风格视频
  • Sim→Real(生成):在经典仿真中生成大量多样化数据,用神经仿真器全部转换为"伪真实数据"

方法逐步拆解

关键公式/算法解读

实验设计分析

关键图表

局限性