MetaEarth3D: Unlocking World-scale 3D Generation with Spatially Scalable Generative Modeling

Jinqi Cao, Zhiping Yu, Baihong Lin, Chenyang Liu, Zhenwei Shi, Zhengxia Zou 2026-04-19
3D generation world-scale foundation model satellite imagery spatial scalability Earth observation

一句话总结

MetaEarth3D 是首个能够在行星尺度进行空间一致性 3D 场景生成的生成式基础模型,通过将超广域 3D 生成重构为尺度空间和维度空间中的渐进概率分布转移,跨越地形级、城市级和街区级等多个层级,实现了从单张卫星图像或文本描述到连续无界 3D 场景的生成。

背景与前置知识

空间尺度:本文的核心概念——现有生成模型在"有界空间"内工作(物体级、室内级、街景级),MetaEarth3D 扩展到行星尺度(10⁻² 到 10⁷ 米)。

多分辨率卫星图像:在 64m、16m、4m、1m/像素四种分辨率上工作。低分辨率覆盖广,高分辨率细节丰富。

DEM/DSM:数字高程模型(地形高度)和数字表面模型(含建筑物高度),作为 3D 几何监督。

马尔可夫尺度转移:高分辨率仅依赖同一区域对应的低分辨率,将多尺度生成分解为条件概率链。

无界生成:滑动窗口分块 + 确定 ODE 求解器 + 一致初始噪声,实现像素级无缝拼接。

核心思想详解

核心洞察:不要试图一次性生成所有内容,而是将生成分解为两个维度的渐进过渡——"尺度空间"(从粗到细:64m/像素逐级到 1m/像素)和"维度空间"(从 2D 到 3D:卫星图像→高程图→侧面纹理)。

这就像画家先画轮廓,再画大色块,最后画细节。每个阶段只处理符合自己层级的信息,大大降低了问题复杂度。

无界生成的伎俩:滑动窗口重叠区域内使用完全相同的初始噪声 + DDIM 确定性采样 = 数学保证无缝拼接。

方法逐步拆解

关键公式/算法解读

实验设计分析

关键图表

局限性