OSMa-Bench++: 面向开放式的语义建图基准测试——基于prompt生成的合成场景

Regina Kurkova, Maxim Popov, Sergey Kolyubin (ITMO University) 2026年5月
Semantic Mapping Benchmarking Synthetic Scenes Robotics VQA

一句话总结

OSMa-Bench++ 提出基于prompt生成合成室内场景的语义建图基准扩展方案,通过可控合成场景生成实现对物体遮挡、杂乱布局和光照变化等操作相关边缘场景的定向压力测试。

背景与前置知识

语义建图(Semantic Mapping)

机器人不仅要感知物体位置,还要理解它们是什么、彼此之间的关系。语义建图将3D场景重建与语义理解结合。

操作任务需求

  • 准确知道物体的存在和数量
  • 理解物体间关系(支撑、邻近、包含等)
  • 了解物体的可访问性

现有方法局限性

评估局限在固定数据集,缺乏对杂乱小物体、部分遮挡、光照变化等操作相关边缘场景的覆盖。

关键概念

  • SceneSmith:从文本描述生成仿真环境的工具
  • Habitat:Meta的3D仿真平台
  • Prompt-grounded evaluation:利用已知场景生成prompt作为语义标注辅助来源
  • HaDaGe:相机轨迹和RGB-D序列生成器

核心思想详解

要测试一个学生的空间感知能力,不能只用在同一个教室考试(固定数据集)。需要灵活布置考场——放很多小物体、调暗灯光、把物体放遮挡位置。

OSMa-Bench++做的就是:根据需求自动生成各种"考场"

两个核心创新

  • 可控场景生成管线:LLM生成描述 -> SceneSmith合成 -> 格式转换 -> 观察序列 -> 评估。让研究人员针对性地生成特定测试场景。
  • Prompt-Grounded评估:利用已知的生成prompt作为语义"参考答案"。传统VQA受限于视角可见性——物体可能从某些视角看不到。有了prompt,可以问"场景中应该有几个杯子?"而非"你看到了几个杯子?"

方法逐步拆解

四种光照条件

实验设计分析

关键图表

局限性