3D-ARD+: 基于自回归3D扩散的文本到场景布局与形状联合生成

一句话总结

3D-ARD+ 提出了一种全新的自回归扩散范式，能够根据详细文本指令逐步生成3D场景，同时精确控制每个物体的布局位置、几何形状和外观纹理，在复杂空间关系建模上显著超越已有方法。

背景与前置知识

▼

3D场景生成

传统3D场景制作需要专业艺术家手动建模、贴图、布置，耗时巨大。近年来出现了"文本到场景"（text-to-scene）方法，用户只需输入文本描述即可自动生成3D场景。

当前方法的局限性

布局生成与物体生成割裂：现有方法要么只生成场景布局（物体位置和大小），要么只生成单个物体，很少同时做两件事。这导致生成的场景不一致。
空间关系理解浅薄：即使用大语言模型帮助，现有方法也只能处理"椅子在桌子旁边"这种简单关系。
物体细节不足：很多方法只能生成预定义类别，无法生成任意形状的物体。

关键基础技术

扩散模型：从随机噪声逐步去噪生成清晰数据的生成范式。
自回归生成：逐步生成序列数据，每一步基于之前生成的内容。
3D VAE：将3D物体压缩到低维隐空间再解码回3D表示。
Rectified Flow：高效的扩散模型变体，用线性插值连接噪声和数据的分布。
3D高斯泼溅（3DGS）：用高斯椭球体表示场景，支持高质量实时渲染。

核心思想详解

▼

想象你是一个室内设计师，按客户需求逐步布置房间。客户依次告诉你：在房间中央放一张床、在床上放被子、在左边放床头柜……每次都要理解当前描述，看看房间里已有什么，再决定下一件物品放哪里、长什么样。3D-ARD+ 就是把这个过程自动化了。

三个核心创新

"边看边画"的双步生成机制：每生成一个物体，模型先在场景空间确定位置和大小（粗粒度），再在物体空间精细刻画形状和纹理。就像雕塑家先搭骨架再精雕细琢。
统一的自回归-扩散框架：文本用自回归方式处理（一个词一个词预测），3D信息用扩散方式处理（从噪声逐步生成）。"分类处理、统一建模"让模型既能理解语言，又能生成高质量3D内容。
大规模数据集驱动：构建23万个室内场景，每个场景都配备逐步文本指令，相当于给模型提供23万套"室内设计教程"。

方法逐步拆解

▼

关键公式/算法解读

▼

实验设计分析

▼

关键图表

▼

局限性

▼

3D-ARD+: 基于自回归3D扩散的文本到场景布局与形状联合生成

一句话总结

背景与前置知识

3D场景生成

当前方法的局限性

关键基础技术

核心思想详解

三个核心创新

方法逐步拆解

Step 1: 文本编码与3D场景表示

Step 2: 3D-ARD 粗粒度场景生成

Step 3: 3D-ARD+ 细粒度精炼

Step 4: 推理过程

关键公式/算法解读

Flow Matching 目标函数

广义因果注意力机制

实验设计分析

数据集

评估设置

关键结果

关键图表

局限性

基本信息

实验结果

个人思考