GenAssets: 在潜空间中生成野外3D资产

一句话总结

GenAssets 提出"先重建后生成"的两阶段框架，通过在潜空间中学习3D资产扩散模型，直接从真实世界稀疏、部分遮挡的自动驾驶传感器数据中生成高质量、完整的360度3D资产。

背景与前置知识

▼

自动驾驶仿真

自动驾驶系统需要在各种长尾场景中进行安全测试。物理测试成本高且危险，因此高质量仿真至关重要。精确的3D资产（车辆、行人等）是仿真的基础。

现有方法的困境

手工建模：艺术家手动制作3D资产，耗时昂贵、数量有限
重建方法：从传感器数据重建，但存在稀疏视角、部分遮挡问题
生成方法：在合成数据上训练，无法直接处理真实世界的稀疏、遮挡数据

关键基础技术

神经辐射场（NeRF）：用神经网络隐式表示3D场景
潜空间扩散模型（LDM）：在压缩的隐空间中进行扩散生成
三平面表示（Tri-plane）：将3D场景分解到三个正交平面
组合场景表示：场景分解为静态背景和动态物体

核心思想详解

▼

想象你是一位考古学家，发现许多陶器碎片（稀疏观察），每个碎片只展示了陶器的一部分（部分遮挡）。你的目标是：根据碎片推断完整形状和纹饰 + 学习风格特点来生成新陶器。

GenAssets做的就是这件事，但对象是自动驾驶中的车辆和行人。

"先重建后生成"的两阶段框架

第一阶段（重建）：同时在多个场景上训练组合场景表示，将所有动态物体编码到低维隐空间。关键创新是考虑遮挡——同时学习背景和物体，让隐编码包含"看不见部分"的信息。
第二阶段（生成）：在学到的隐空间上训练扩散模型。由于隐空间紧凑且有语义，扩散模型可高效生成高质量、多样化的3D资产，支持条件控制（类别、时间段等）。

方法逐步拆解

▼

关键公式/算法解读

▼

实验设计分析

▼

关键图表

▼

局限性

▼

GenAssets: 在潜空间中生成野外3D资产

一句话总结

背景与前置知识

自动驾驶仿真

现有方法的困境

关键基础技术

核心思想详解

"先重建后生成"的两阶段框架

方法逐步拆解

Step 1: 组合场景表示

Step 2: 学习潜空间资产表示

Step 3: 传感器渲染

Step 4: 训练目标

Step 5: 潜空间扩散模型

Step 6: 渲染指导去噪

关键公式/算法解读

前向扩散过程

扩散训练目标

渲染指导去噪

实验设计分析

数据集

三种评估设置（难度递增）

关键结果

关键图表

局限性

基本信息

实验结果

个人思考