笔记

论文笔记

阅读论文的记录与思考

标题作者日期关键词

HetScene: Heterogeneity-Aware Diffusion for Dense Indoor Scene Generation

HetScene 提出了一种异质性感知的两阶段扩散框架，通过将室内物体分解为主物体（床、沙发等大件家具）和次物体（书本、台灯等小件物品）分别生成，解决了现有方法在稠密室内场景中难以兼顾全局布局和局部细节的问题。

Zini Chen et al.

2026.05

3D scene generation室内场景异质性感知+2

ELF: Embedded Language Flows

ELF 提出了一种基于连续时间 Flow Matching 的扩散语言模型，在连续嵌入空间中完成去噪，仅在最后一步做离散化，从而自然兼容 CFG 等图像扩散中的成熟技术，以更少的采样步数和更少的训练 token 超越了现有离散和连续扩散语言模型。

Keya Hu* et al.

2026.05

diffusion language modelflow matchingcontinuous embeddings+2

A Real-Calibrated Synthetic-First Data Engine

Yukang Shen (Kennesaw State University)

2026.05

合成数据数据引擎扩散生成+3

SimuWoB: Simulating Real-World Mobile Apps for Fast and Faithful GUI Agent Benchmarking

SimuWoB 提出了一种基于LLM的移动应用环境合成框架，自动生成120个高保真、带可执行验证器的可交互移动应用测试环境，揭示当前最强移动GUI agent在复杂任务上的成功率仅27.92%。

Guohong Liu et al.

2026.05

GUI agentsbenchmarking移动应用仿真+2

OSMa-Bench++: Toward Open-Ended Benchmarking of Semantic Mapping for Manipulation with Prompt-Generated Synthetic Scenes

OSMa-Bench++ 提出了一种基于prompt生成合成室内场景的语义建图基准扩展方案，通过可控的合成场景生成实现对物体遮挡、杂乱布局和光照变化等操作相关边缘场景的定向压力测试。

Regina Kurkova et al.

2026.05

semantic mappingbenchmarking语义建图+3

CasLayout: Cascaded 3D Layout Diffusion for Indoor Scene Synthesis with Implicit Relation Modeling

CasLayout 受专业室内设计师工作流程启发，将家具布局生成分解为四个级联的条件扩散过程——家具类型、属性、关系隐空间、边界框位置——并引入隐式稀疏关系建模来减少冗余约束，实现了可控且高质量的室内场景合成。

Yingrui Wu et al.

2026.04

3D scene generation室内场景级联扩散+3

Lucid-XR: An Extended-Reality Data Engine for Robotic Manipulation

Yajvan Ravan et al.

2026.04

roboticsXRdata engine+4

Towards Scalable Terminal Task Synthesis via Skill Graphs

SkillSynth 通过构建场景中介的技能图谱，从图中采样路径并利用多智能体系统自动合成多样化的终端任务实例，从而为训练终端智能体提供高质量、可扩展的执行轨迹数据。

Zhiyuan Fan et al.

2026.04

Terminal AgentsSkill GraphTask Synthesis+3

From Experience to Skill: Multi-Agent Generative Engine Optimization via Reusable Strategy Learning

本文提出 MAGEO 框架，将生成式引擎优化（GEO）重新定义为策略学习问题，通过多智能体协作执行优化，并将成功的编辑模式蒸馏为可复用的技能，在多个主流生成式引擎上显著超越启发式基线。

Beining Wu et al.

2026.04

GEO生成式引擎优化多智能体系统+3

MetaEarth3D: Unlocking World-scale 3D Generation with Spatially Scalable Generative Modeling

MetaEarth3D 是首个能够在行星尺度进行空间一致性 3D 场景生成的生成式基础模型，通过将超广域 3D 生成重构为尺度空间和维度空间中的渐进概率分布转移，跨越地形级、城市级和街区级等多个层级，实现了从单张卫星图像或文本描述到连续无界 3D 场景的生成。

Jinqi Cao et al.

2026.04

3D generation行星级生成3D基础模型+2

From Seeing to Simulating: Generative High-Fidelity Simulation with Digital Cousins for Generalizable Robot Learning and Evaluation

Jasper Lu et al.

2026.04

roboticsscene generationDigital Cousins+4

Rein3D: Reinforced 3D Indoor Scene Generation with Panoramic Video Diffusion Models

Rein3D 提出了一种"修复-精化"循环范式，通过径向探索策略渲染不完善的全景视频，利用全景视频扩散模型修复缺失的几何和纹理，再将修复后的高保真视频回传更新全局 3DGS 场，实现了从单张全景图出发的高质量、全局一致的 3D 室内场景重建。

Dehui Wang et al.

2026.04

3D reconstruction3DGS全景视频扩散+3

ComSim: Building Scalable Real-World Robot Data Generation via Compositional Simulation

Yiran Qin et al.

2026.04

roboticsdata generation组合仿真+3

SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds

Yunsong Zhou et al.

2026.04

roboticsdeformable objects物理对齐+4

COVERT: Controllable and Verifiable Tool-Use Data Synthesis for Agentic Reinforcement Learning

COVERT 提出了一种两阶段合成数据流水线，先生成可靠的基础工具调用轨迹，再通过"保留最优解"（oracle-preserving）的增强策略系统性地增加环境复杂度，从而为强化学习提供可自动计算奖励的训练环境，显著提升大语言模型在工具调用场景下的鲁棒性。

Siyuan Xu et al.

2026.04

reinforcement learningtool use轨迹合成+2

Dynamic Context Evolution for Scalable Synthetic Data Generation

Ryan Lingo, Rajeev Chhajer (Honda Research Institute, USA)

2026.04

合成数据模式坍缩动态上下文+3

Co-generation of Layout and Shape from Text via Autoregressive 3D Diffusion

3D-ARD+ 提出了一种全新的自回归扩散范式，能够根据详细文本指令逐步生成3D场景，同时精确控制每个物体的布局位置、几何形状和外观纹理，在复杂空间关系建模上显著超越已有方法。

Zhenggang Tang et al.

2026.04

3D generationtext-to-3D文本到3D+3

GenAssets: Generating in-the-wild 3D Assets in Latent Space

GenAssets 提出了一种"先重建后生成"的两阶段框架，通过在潜空间中学习3D资产扩散模型，直接从真实世界的稀疏、部分遮挡的自动驾驶传感器数据中生成高质量、完整的360度3D资产。

Ze Yang et al.

2026.04

3D assetsautonomous driving3D资产生成+3

Synthetic Computers at Scale for Long-Horizon Productivity Simulation

本文提出了一种大规模创建用户专属合成计算机环境的方法，并在此环境中运行超过2000轮的长周期生产力仿真，产生丰富的经验学习信号，显著提升agent在生产力场景中的表现。

Tao Ge et al.

2026.04

agent simulationsynthetic environments合成计算机环境+3

Scalable Evaluation of the Realism of Synthetic Environmental Augmentations in Images

Damian Ruck et al.

2026.03

图像增强环境效果真实感评估+3

Large-Scale Terminal Agentic Trajectory Generation from Dockerized Environments

TerminalTraj 提出了一套从 Docker 化环境中大规模生成终端智能体轨迹的完整流水线，通过预测性质量过滤和可执行验证代码，从近百万个 GitHub 仓库中筛选并生成了超过 5 万条高质量的多轮交互轨迹，训练出的 TerminalTraj-32B 模型在 TerminalBench 1.0 和 2.0 上分别取得了超过骨干模型 20 分和 10 分的提升。

Siwei Wu et al.

2026.02

Terminal AgentTrajectory GenerationDockerized Environment+3

VL-JEPA: Joint Embedding Predictive Architecture for Vision-language

VL-JEPA 提出了一种基于联合嵌入预测架构的视觉语言模型，通过在连续嵌入空间而非离散 token 空间中进行预测，用更少的可训练参数实现了更强的多模态任务能力。

Delong Chen et al.

2026.02

视觉语言模型联合嵌入预测架构视频理解+2

Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

本文提出 Agent World Model (AWM)，一个全合成环境生成管线，通过自动生成 1,000 个代码驱动、数据库支撑的交互环境，实现了大规模 agentic RL 训练，并在三个基准测试上展现了强大的分布外泛化能力。

Zhaoyang Wang et al.

2026.02

LLM Agent强化学习合成环境+2

Endless Terminals: Scaling RL Environments for Terminal Agents

Kanishk Gandhi et al.

2026.01

强化学习程序化生成终端代理+2

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

本文提出 AReaL-SEA 框架，通过多智能体协同的自进化数据合成管线生成可验证的训练数据，并结合基于验证器的结果奖励 RL（GRPO）训练多轮交互式工具使用智能体，在 π²-bench 基准上取得了显著的性能提升。

Jiaxuan Gao et al.

2026.01

交互式智能体强化学习数据合成+4

AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning

AutoEnv 提出了一个自动生成异构环境的框架，并构建了 36 个多样化环境的基准数据集 AutoEnv-36，系统性地揭示了固定学习方法无法在异构环境中有效泛化的现象，指出跨环境智能体学习需要环境自适应的策略选择。

Jiayi Zhang et al.

2025.12

智能体学习跨环境泛化环境自动生成+2

SynthTools: A Framework for Scaling Synthetic Tools for Agent Development

SynthTools 提出了一个可扩展的框架，通过层次化领域进化自动生成、模拟和审计合成工具，为 AI Agent 的训练和评估提供大规模、多样化且可靠的工具生态系统。

Tommaso Castellani et al.

2025.11

AI Agent合成工具生成工具模拟+2

UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning

本文提出 Instruction-as-Reasoning 范式，将 GUI grounding 中的自然语言指令从静态输入升级为动态推理路径，通过 SFT+GRPO 两阶段训练让模型学会从多视角分析指令并选择最优推理路径，在五个主流 benchmark 上取得 SOTA。

Liangyu Chen et al.

2025.10

GUI GroundingInstruction-as-ReasoningMulti-Perspective Reasoning+4

Group Sequence Policy Optimization

GSPO 提出用序列似然（sequence likelihood）定义重要性比率替代 GRPO 的 token 级重要性比率，从根源上解决 GRPO 在大规模 RL 训练中的不稳定性问题，并在 Qwen3 系列模型上验证了其优越性。

Chujie Zheng et al.

2025.07

GSPOSequence-level Policy OptimizationRLVR+5

Agentic Reinforced Policy Optimization

Guanting Dong et al.

2025.07

ARPOAgentic RLMulti-turn RL+4

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

V-JEPA 2 通过在超过 100 万小时互联网视频上进行自监督预训练，结合少量机器人交互数据进行后训练，构建了一个能够同时理解视频内容、预测未来状态并驱动机器人完成物理操作的统一世界模型。

Mido Assran et al.

2025.06

自监督学习视频理解世界模型+5

Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning

Tool-Star 是一个基于强化学习的框架，通过两阶段训练（冷启动微调 + 多工具自批评 RL）和数据合成管线，使 LLM 能够在逐步推理过程中自主调用搜索引擎、代码解释器等多种外部工具，在 10+ 个挑战性推理基准上显著超越了单工具 RL 方法。

Guanting Dong et al.

2025.05

强化学习工具集成推理多工具协作+3

Procedural Environment Generation for Tool-Use Agents

RandomWorld 是一个通过过程化生成创建可交互工具和非线性组合任务的流水线，利用合成数据对 LLM 进行 SFT 和 RL 训练，在多个工具使用基准上取得性能提升，并在 NESTFUL 数据集上创下两个指标的新 SOTA。

Michael Sullivan, Mareike Hartmann, Alexander Koller

2025.05

工具使用智能体过程化生成强化学习+2

Crys-JEPA: Accelerating Crystal Discovery via Embedding Screening and Generative Refinement

本文揭示了晶体 de novo 生成中稳定性和新颖性之间的根本权衡，并提出 Crys-JEPA——一种基于能量的感知潜空间代理模型，通过筛选-精炼管道显著提升同时满足稳定、唯一、新颖晶体的生成比例。

Nian Liu et al.

2025.05

晶体生成材料发现联合嵌入预测架构+2

WebThinker: Empowering Large Reasoning Models with Deep Research Capability

WebThinker 通过为大型推理模型集成深度网络探索器和自主"思考-搜索-起草"策略，使模型在推理过程中能自主搜索网页、导航和撰写研究报告，显著提升了复杂推理和报告生成任务的性能。

Xiaoxi Li et al.

2025.04

大型推理模型深度研究网络搜索+3

DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments

DeepResearcher 是首个在真实网络搜索环境中通过端到端强化学习训练 LLM 深度研究智能体的框架，相比 prompt 工程基线提升高达 28.9 分，并涌现出规划、交叉验证、反思和诚实等类人认知行为。

Yuxiang Zheng et al.

2025.04

强化学习深度研究网络搜索+3

Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis

本文提出 DataPRM，一种面向数据分析 Agent 的环境感知型过程奖励模型，通过主动环境交互验证和反思感知的三元奖励策略，解决现有 PRM 在数据分析任务中无法检测静默错误和误判探索性错误的问题。

Zhisong Qiu et al.

2025.04

Process Reward ModelsData Analysis AgentLarge Language Models+2

AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents

AppWorld 构建了一个由 9 个日常应用和 457 个 API 组成的可控执行环境，以及包含 750 个任务的基准测试套件，专门用于评估需要通过编写复杂代码与多个应用交互的自主编码智能体。

Harsh Trivedi et al.

2024.07

自主智能体代码生成基准测试+3

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

DeepSeekMath 通过从 Common Crawl 中精选 120B 数学 token 进行持续预训练，并提出 GRPO（Group Relative Policy Optimization）强化学习算法，使 7B 模型在竞赛级 MATH 基准上达到 51.7%，接近 GPT-4 水平。

Zhihong Shao et al.

2024.02

Mathematical ReasoningGRPOReinforcement Learning+5

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

DPO 通过将 RLHF 中的奖励模型隐式地表达为语言策略本身，把复杂的"训练奖励模型 + 强化学习优化"两阶段流程简化为一个简单的二元分类损失，无需强化学习即可直接从人类偏好数据中优化语言模型。

Rafael Rafailov et al.

2023.05

RLHFPreference OptimizationLLM Alignment+3

Proximal Policy Optimization Algorithms

PPO 通过引入裁剪概率比率的代理目标函数，用简单的一阶优化方法实现了类似 TRPO 的信赖域策略更新效果，在样本效率、实现简洁性和实际性能之间取得了优异的平衡。

John Schulman et al.

2017.07

Reinforcement LearningPolicy GradientPPO+4

HyperSim: A Holistic Sim-To-Real Framework For Robust Robotic Manipulation

SENSE: Satellite-based ENergy Synthesis for Sustainable Environment

AcquisitionSynthesis: Targeted Data Generation using Acquisition Functions

HetScene: Heterogeneity-Aware Diffusion for Dense Indoor Scene Generation

ELF: Embedded Language Flows

A Real-Calibrated Synthetic-First Data Engine

SimuWoB: Simulating Real-World Mobile Apps for Fast and Faithful GUI Agent Benchmarking

OSMa-Bench++: Toward Open-Ended Benchmarking of Semantic Mapping for Manipulation with Prompt-Generated Synthetic Scenes

CasLayout: Cascaded 3D Layout Diffusion for Indoor Scene Synthesis with Implicit Relation Modeling

Lucid-XR: An Extended-Reality Data Engine for Robotic Manipulation

Towards Scalable Terminal Task Synthesis via Skill Graphs

From Experience to Skill: Multi-Agent Generative Engine Optimization via Reusable Strategy Learning

MetaEarth3D: Unlocking World-scale 3D Generation with Spatially Scalable Generative Modeling

From Seeing to Simulating: Generative High-Fidelity Simulation with Digital Cousins for Generalizable Robot Learning and Evaluation

Rein3D: Reinforced 3D Indoor Scene Generation with Panoramic Video Diffusion Models

ComSim: Building Scalable Real-World Robot Data Generation via Compositional Simulation

SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds

COVERT: Controllable and Verifiable Tool-Use Data Synthesis for Agentic Reinforcement Learning

Dynamic Context Evolution for Scalable Synthetic Data Generation

Co-generation of Layout and Shape from Text via Autoregressive 3D Diffusion

GenAssets: Generating in-the-wild 3D Assets in Latent Space

Synthetic Computers at Scale for Long-Horizon Productivity Simulation

Scalable Evaluation of the Realism of Synthetic Environmental Augmentations in Images

Large-Scale Terminal Agentic Trajectory Generation from Dockerized Environments

VL-JEPA: Joint Embedding Predictive Architecture for Vision-language

Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

Endless Terminals: Scaling RL Environments for Terminal Agents

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning

SynthTools: A Framework for Scaling Synthetic Tools for Agent Development

UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning

Group Sequence Policy Optimization

Agentic Reinforced Policy Optimization

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning

Procedural Environment Generation for Tool-Use Agents

Crys-JEPA: Accelerating Crystal Discovery via Embedding Screening and Generative Refinement

WebThinker: Empowering Large Reasoning Models with Deep Research Capability

DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments

Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis

AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Proximal Policy Optimization Algorithms