3D-ARD+: 基于自回归3D扩散的文本到场景布局与形状联合生成

Zhenggang Tang, Yuehao Wang, Yuchen Fan et al. (Meta Reality Labs, UIUC, UT Austin) 2026年4月
3D Generation Text-to-3D Autoregressive Diffusion Scene Layout 7B Model

一句话总结

3D-ARD+ 提出了一种全新的自回归扩散范式,能够根据详细文本指令逐步生成3D场景,同时精确控制每个物体的布局位置、几何形状和外观纹理,在复杂空间关系建模上显著超越已有方法。

背景与前置知识

3D场景生成

传统3D场景制作需要专业艺术家手动建模、贴图、布置,耗时巨大。近年来出现了"文本到场景"(text-to-scene)方法,用户只需输入文本描述即可自动生成3D场景。

当前方法的局限性

  • 布局生成与物体生成割裂:现有方法要么只生成场景布局(物体位置和大小),要么只生成单个物体,很少同时做两件事。这导致生成的场景不一致。
  • 空间关系理解浅薄:即使用大语言模型帮助,现有方法也只能处理"椅子在桌子旁边"这种简单关系。
  • 物体细节不足:很多方法只能生成预定义类别,无法生成任意形状的物体。

关键基础技术

  • 扩散模型:从随机噪声逐步去噪生成清晰数据的生成范式。
  • 自回归生成:逐步生成序列数据,每一步基于之前生成的内容。
  • 3D VAE:将3D物体压缩到低维隐空间再解码回3D表示。
  • Rectified Flow:高效的扩散模型变体,用线性插值连接噪声和数据的分布。
  • 3D高斯泼溅(3DGS):用高斯椭球体表示场景,支持高质量实时渲染。

核心思想详解

想象你是一个室内设计师,按客户需求逐步布置房间。客户依次告诉你:在房间中央放一张床、在床上放被子、在左边放床头柜……每次都要理解当前描述,看看房间里已有什么,再决定下一件物品放哪里、长什么样。3D-ARD+ 就是把这个过程自动化了。

三个核心创新

  • "边看边画"的双步生成机制:每生成一个物体,模型先在场景空间确定位置和大小(粗粒度),再在物体空间精细刻画形状和纹理。就像雕塑家先搭骨架再精雕细琢。
  • 统一的自回归-扩散框架:文本用自回归方式处理(一个词一个词预测),3D信息用扩散方式处理(从噪声逐步生成)。"分类处理、统一建模"让模型既能理解语言,又能生成高质量3D内容。
  • 大规模数据集驱动:构建23万个室内场景,每个场景都配备逐步文本指令,相当于给模型提供23万套"室内设计教程"。

方法逐步拆解

关键公式/算法解读

实验设计分析

关键图表

局限性