一句话总结
提出 SENSE 框架,利用可控扩散模型在卫星图像生成的同时联合合成建筑能耗和高度图,仅需不到 20% 的真实标签数据即可将下游预测性能提升 10% mIoU,满足 ASHRAE 建筑能耗校准标准(NMBE 3.05%)。
背景与前置知识
▼城市建筑能耗建模 (UBEM)
城市中约 70% 的能源由建筑消耗,建筑能耗占全球能源需求的 32%。UBEM 旨在对城市级建筑能耗进行建模和预测,为节能减排政策制定提供依据。
现有方法的局限性
物理仿真方法准确但极慢(模拟一个城市需要数小时到数天)。数据驱动方法速度快但需要大量高质量标注数据。两类方法都是"预测性"的——能评估方案但不能"生成"新的节能城市形态。
扩散模型与 ControlNet
潜在扩散模型(LDM)在 VAE 编码后的潜在空间中进行扩散过程,大幅降低计算成本。ControlNet 通过在预训练编码器旁添加可训练的副本(零卷积层初始化为零),在不破坏预训练知识的前提下控制生成结果的空间布局。
ASHRAE Guideline 14
建筑能耗模型校准标准,要求 NMBE(标准化平均偏差误差)在 ±10% 以内,CVRMSE(均方根误差变异系数)在 30% 以内。
核心思想详解
▼SENSE 的核心洞察是:生成一张逼真的城市卫星图像所需的视觉语义,与预测建筑能耗和高度所需的信息,本质上是高度相关的。一个看起来像工厂的建筑,其能耗模式一定与看起来像住宅的建筑不同。
传统方法是"我们要预测能耗,所以我们需要更多标注数据"。SENSE 的思路是"我们要生成城市图像,而能耗信息就隐含在图像中"——这是从预测范式到生成范式的根本转变。
用类比来说:你不需要为"画一个人"和"猜测这个人的身高"分别训练两个模型。如果能画好一个人(说明模型理解了人体结构),那么从画面中估计身高就水到渠成。
SENSE 先训练一个强大的城市图像生成器,然后在生成器的潜在空间中使用轻量级解码器"读出"建筑高度和能耗信息。