一句话总结
HetScene 提出了一种异质性感知的两阶段扩散框架,通过将室内物体分解为主物体(床、沙发等大件家具)和次物体(书本、台灯等小件物品)分别生成,解决了现有方法在稠密室内场景中难以兼顾全局布局和局部细节的问题。
背景与前置知识
▼室内场景生成:目标是自动生成合理的 3D 室内布局——确定房间中应该放置哪些家具以及它们的位置、朝向和尺寸。这是计算机图形学和具身智能的基础技术。
主物体 vs 次物体:主物体如床、沙发、餐桌,体型大、数量少、受房间整体结构约束;次物体如书籍、台灯、装饰品,体型小、数量多、依赖附近的主物体。
扩散模型:一种生成模型,通过逐步向数据添加噪声然后学习逆向去噪过程来生成新数据。
场景图:表示场景中物体之间空间关系的数据结构,节点代表物体,边代表关系。
核心思想详解
▼HetScene 的核心洞察可以类比室内设计中的"先搭骨架,再填细节"原则。你会先决定大件家具的位置(床、沙发、餐桌),确定功能分区,然后再考虑小物件(台灯、装饰品)的摆放。
然而现有方法把所有物体视为"同等重要",混在一起生成——大床的位置和小台灯的位置在同一个优化过程中决定,导致相互干扰。大件家具需要全局考虑(靠墙、留通道),小物件需要局部考虑(支撑关系),两者的统计规律完全不同。
HetScene 的解决方案是显式解耦为两个阶段:结构布局生成(SLG)只生成主物体,关注房间整体功能组织;上下文布局生成(CLG)以主物体为锚点,围绕它们生成次物体。这样将联合生成转化为"全局规划+局部填充"的组合。