一句话总结
Lucid-XR 是一个将物理仿真搬到 XR 头显浏览器上的机器人数据引擎,通过 WebXR 实现互联网规模的众包数据采集,再结合生成式 AI 将低保真虚拟演示转化为多样化、逼真的多视角训练数据,实现策略在从未见过的杂乱真实环境中的零样本部署。
背景与前置知识
▼扩展现实 (XR)
XR 是 VR/AR/MR 的总称。XR头显(如 Apple Vision Pro、Meta Quest)可以在用户视野中叠加虚拟内容。Lucid-XR 将机器人仿真运行在 XR 设备的浏览器中,实现沉浸式遥操作。
MuJoCo 与 WebAssembly
MuJoCo 是一个广泛使用的物理仿真引擎,支持刚体动力学、柔性体、流体和SDF碰撞。WebAssembly 是高效的二进制指令格式,在浏览器中可以接近原生速度运行。通过将 MuJoCo 编译为 Wasm,Lucid-XR 在浏览器中实现了 90fps 的设备端仿真。
姿态重定向
将人类操作者的姿态映射到不同运动学结构的机器人上的过程。例如,人手姿态需要映射到二指夹爪或灵巧手上。
核心思想详解
▼核心愿景:将机器人数据采集变得像拍摄短视频一样简单——任何人都可以通过 XR 头显的浏览器访问虚拟环境,通过自然的手部动作演示机器人操作,这些数据自动转化为高质量训练数据集。
类比:传统机器人数据采集就像电影实景特效——昂贵且耗时。Lucid-XR 就像电影制作转向数字特效。它更创新:让你在虚拟现实中像玩积木一样演示操作(绿幕前表演),然后用 AI 自动把"绿幕前的表演"渲染成"真实场景中的表演"。
三大创新:
- 设备端物理仿真:MuJoCo → WebAssembly → XR浏览器,消除延迟,实现90fps
- 通用姿态重定向:标记点绑定 + 逆运动学,无需自定义代码
- 生成式数据增强:文本到图像生成,低保真→逼真多视角数据