GenAssets: 在潜空间中生成野外3D资产

Ze Yang, Jingkang Wang, Haowei Zhang et al. (Waabi, University of Toronto) 2026年4月
3D Assets Autonomous Driving Latent Diffusion LiDAR Neural Rendering

一句话总结

GenAssets 提出"先重建后生成"的两阶段框架,通过在潜空间中学习3D资产扩散模型,直接从真实世界稀疏、部分遮挡的自动驾驶传感器数据中生成高质量、完整的360度3D资产。

背景与前置知识

自动驾驶仿真

自动驾驶系统需要在各种长尾场景中进行安全测试。物理测试成本高且危险,因此高质量仿真至关重要。精确的3D资产(车辆、行人等)是仿真的基础。

现有方法的困境

  • 手工建模:艺术家手动制作3D资产,耗时昂贵、数量有限
  • 重建方法:从传感器数据重建,但存在稀疏视角、部分遮挡问题
  • 生成方法:在合成数据上训练,无法直接处理真实世界的稀疏、遮挡数据

关键基础技术

  • 神经辐射场(NeRF):用神经网络隐式表示3D场景
  • 潜空间扩散模型(LDM):在压缩的隐空间中进行扩散生成
  • 三平面表示(Tri-plane):将3D场景分解到三个正交平面
  • 组合场景表示:场景分解为静态背景和动态物体

核心思想详解

想象你是一位考古学家,发现许多陶器碎片(稀疏观察),每个碎片只展示了陶器的一部分(部分遮挡)。你的目标是:根据碎片推断完整形状和纹饰 + 学习风格特点来生成新陶器。

GenAssets做的就是这件事,但对象是自动驾驶中的车辆和行人。

"先重建后生成"的两阶段框架

  • 第一阶段(重建):同时在多个场景上训练组合场景表示,将所有动态物体编码到低维隐空间。关键创新是考虑遮挡——同时学习背景和物体,让隐编码包含"看不见部分"的信息。
  • 第二阶段(生成):在学到的隐空间上训练扩散模型。由于隐空间紧凑且有语义,扩散模型可高效生成高质量、多样化的3D资产,支持条件控制(类别、时间段等)。

方法逐步拆解

关键公式/算法解读

实验设计分析

关键图表

局限性