ComSim: Building Scalable Real-World Robot Data Generation via Compositional Simulation

一句话总结

ComSim 提出"组合仿真"新范式，通过融合经典仿真（精确的动作-视频配对）和神经仿真（真实感渲染），构建闭环 "真实→仿真→真实"数据增强流水线，仅需少量真实数据就能生成大规模、多样化且动作一致的训练数据。

▼

经典仿真（MuJoCo, Isaac Lab, ManiSkill）使用物理引擎模拟交互，优势是精确记录动作-视频配对，缺点是视觉不真实。神经仿真使用视频生成模型生成数据，优点是视觉真实，缺点是存在"幻觉"——生成的视频可能在物理上不一致，导致动作与视频对应关系被破坏。

经典仿真保证了动作精确性但视觉不真实；神经仿真保证了视觉真实性但动作控制不精确。两者各自擅长解决领域鸿沟的不同方面。

扩散模型通过逐步加噪然后学习去噪来生成新样本。DiT（Diffusion Transformer）将 Transformer 架构应用于扩散模型。控制动态指机器人动作序列；视觉动态指摄像头观测图像序列。

▼

类比：想象你要为电影场景制作特效。传统CGI（经典仿真）每一帧都能精确控制但不够真实；AI视频生成（神经仿真）画面真实但无法精确控制角色动作。ComSim的做法是：先用CGI生成精确的动作画面，然后训练AI模型把CGI画面"翻译"成真实画面，同时确保角色动作保持不变。

Real-Sim-Real 流水线：

▼

▼

▼

▼

▼