一句话总结
GenAssets 提出"先重建后生成"的两阶段框架,通过在潜空间中学习3D资产扩散模型,直接从真实世界稀疏、部分遮挡的自动驾驶传感器数据中生成高质量、完整的360度3D资产。
背景与前置知识
▼自动驾驶仿真
自动驾驶系统需要在各种长尾场景中进行安全测试。物理测试成本高且危险,因此高质量仿真至关重要。精确的3D资产(车辆、行人等)是仿真的基础。
现有方法的困境
- 手工建模:艺术家手动制作3D资产,耗时昂贵、数量有限
- 重建方法:从传感器数据重建,但存在稀疏视角、部分遮挡问题
- 生成方法:在合成数据上训练,无法直接处理真实世界的稀疏、遮挡数据
关键基础技术
- 神经辐射场(NeRF):用神经网络隐式表示3D场景
- 潜空间扩散模型(LDM):在压缩的隐空间中进行扩散生成
- 三平面表示(Tri-plane):将3D场景分解到三个正交平面
- 组合场景表示:场景分解为静态背景和动态物体
核心思想详解
▼想象你是一位考古学家,发现许多陶器碎片(稀疏观察),每个碎片只展示了陶器的一部分(部分遮挡)。你的目标是:根据碎片推断完整形状和纹饰 + 学习风格特点来生成新陶器。
GenAssets做的就是这件事,但对象是自动驾驶中的车辆和行人。
"先重建后生成"的两阶段框架
- 第一阶段(重建):同时在多个场景上训练组合场景表示,将所有动态物体编码到低维隐空间。关键创新是考虑遮挡——同时学习背景和物体,让隐编码包含"看不见部分"的信息。
- 第二阶段(生成):在学到的隐空间上训练扩散模型。由于隐空间紧凑且有语义,扩散模型可高效生成高质量、多样化的3D资产,支持条件控制(类别、时间段等)。