A Real-Calibrated Synthetic-First Data Engine

一句话总结

提出一个模块化的"真实校准-合成优先"数据引擎，将可控扩散生成与多阶段筛选过滤集成在统一流水线中，核心发现是合成数据作为真实数据的低成本增强物最有效（混合训练优于纯真实基线），但纯合成训练仍远低于真实性能。

背景与前置知识

▼

数据稀缺与合成数据

在计算机视觉中，标注数据昂贵且耗时。人体姿态估计需要精确标注关键点，成本更高。扩散模型可以生成合成图像，但存在"模拟到现实"的鸿沟。

数据为中心的 AI

关注如何构建、筛选和管理训练数据，核心思想是：更好的数据 = 更好的模型，而非更好的模型架构。

可控扩散生成

使用 ControlNet 等技术，通过姿势骨架、边缘图、深度图等条件信号控制扩散模型的生成结果。

领域鸿沟

合成数据与真实数据在统计分布上的差异。即使用肉眼看起来很真实的合成图像，在模型的表征空间中可能与真实图像仍有差距。

核心思想详解

▼

想象你在教一个学生认识动物。你只有 10 张真实照片。你可以请一位画家画出 100 张画，但有些画可能画得很奇怪。你需要一个机制来筛选这些画作。

这个"筛选机制"不能凭空想象——它需要以"什么是真实的"为标准。本论文的做法是：用那 10 张真实照片来校准筛选标准。不是用真实照片指导画家画什么，而是用真实照片告诉筛选器"什么样的画才是好的"。

这就是"真实校准"的含义——真实数据不是生成条件，而是参考锚点。就像用一把真尺子校准你的测量工具，然后用测量工具去筛选批量制造的产品。

核心结论是务实的：合成数据不能替代真实数据，但可以作为真实数据的低成本补充。这个结论看似保守，但是对"合成数据可以替代一切"炒作的重要纠偏。

方法逐步拆解

▼

关键公式/算法解读

▼

实验设计分析

▼

关键图表

▼

局限性

▼

A Real-Calibrated Synthetic-First Data Engine

一句话总结

背景与前置知识

数据稀缺与合成数据

数据为中心的 AI

可控扩散生成

领域鸿沟

核心思想详解

方法逐步拆解

步骤 1：任务初始化与真实锚点收集

步骤 2：可控合成生成

步骤 3a：语义对齐筛选

步骤 3b：结构有效性筛选

步骤 4：下游训练

关键公式/算法解读

合成池定义

筛选级联

语义边缘分数

实验设计分析

为什么选人体姿态估计？

五种训练条件的剥离式设计

关键发现

关键图表

局限性

基本信息

实验结果

个人思考