一句话总结
提出一个模块化的"真实校准-合成优先"数据引擎,将可控扩散生成与多阶段筛选过滤集成在统一流水线中,核心发现是合成数据作为真实数据的低成本增强物最有效(混合训练优于纯真实基线),但纯合成训练仍远低于真实性能。
背景与前置知识
▼数据稀缺与合成数据
在计算机视觉中,标注数据昂贵且耗时。人体姿态估计需要精确标注关键点,成本更高。扩散模型可以生成合成图像,但存在"模拟到现实"的鸿沟。
数据为中心的 AI
关注如何构建、筛选和管理训练数据,核心思想是:更好的数据 = 更好的模型,而非更好的模型架构。
可控扩散生成
使用 ControlNet 等技术,通过姿势骨架、边缘图、深度图等条件信号控制扩散模型的生成结果。
领域鸿沟
合成数据与真实数据在统计分布上的差异。即使用肉眼看起来很真实的合成图像,在模型的表征空间中可能与真实图像仍有差距。
核心思想详解
▼想象你在教一个学生认识动物。你只有 10 张真实照片。你可以请一位画家画出 100 张画,但有些画可能画得很奇怪。你需要一个机制来筛选这些画作。
这个"筛选机制"不能凭空想象——它需要以"什么是真实的"为标准。本论文的做法是:用那 10 张真实照片来校准筛选标准。不是用真实照片指导画家画什么,而是用真实照片告诉筛选器"什么样的画才是好的"。
这就是"真实校准"的含义——真实数据不是生成条件,而是参考锚点。就像用一把真尺子校准你的测量工具,然后用测量工具去筛选批量制造的产品。
核心结论是务实的:合成数据不能替代真实数据,但可以作为真实数据的低成本补充。这个结论看似保守,但是对"合成数据可以替代一切"炒作的重要纠偏。