一句话总结
OSMa-Bench++ 提出基于prompt生成合成室内场景的语义建图基准扩展方案,通过可控合成场景生成实现对物体遮挡、杂乱布局和光照变化等操作相关边缘场景的定向压力测试。
背景与前置知识
▼语义建图(Semantic Mapping)
机器人不仅要感知物体位置,还要理解它们是什么、彼此之间的关系。语义建图将3D场景重建与语义理解结合。
操作任务需求
- 准确知道物体的存在和数量
- 理解物体间关系(支撑、邻近、包含等)
- 了解物体的可访问性
现有方法局限性
评估局限在固定数据集,缺乏对杂乱小物体、部分遮挡、光照变化等操作相关边缘场景的覆盖。
关键概念
- SceneSmith:从文本描述生成仿真环境的工具
- Habitat:Meta的3D仿真平台
- Prompt-grounded evaluation:利用已知场景生成prompt作为语义标注辅助来源
- HaDaGe:相机轨迹和RGB-D序列生成器
核心思想详解
▼要测试一个学生的空间感知能力,不能只用在同一个教室考试(固定数据集)。需要灵活布置考场——放很多小物体、调暗灯光、把物体放遮挡位置。
OSMa-Bench++做的就是:根据需求自动生成各种"考场"。
两个核心创新
- 可控场景生成管线:LLM生成描述 -> SceneSmith合成 -> 格式转换 -> 观察序列 -> 评估。让研究人员针对性地生成特定测试场景。
- Prompt-Grounded评估:利用已知的生成prompt作为语义"参考答案"。传统VQA受限于视角可见性——物体可能从某些视角看不到。有了prompt,可以问"场景中应该有几个杯子?"而非"你看到了几个杯子?"