论文笔记
阅读论文的记录与思考
HyperSim: A Holistic Sim-To-Real Framework For Robust Robotic Manipulation
SENSE: Satellite-based ENergy Synthesis for Sustainable Environment
AcquisitionSynthesis: Targeted Data Generation using Acquisition Functions
HetScene: Heterogeneity-Aware Diffusion for Dense Indoor Scene Generation
HetScene 提出了一种异质性感知的两阶段扩散框架,通过将室内物体分解为主物体(床、沙发等大件家具)和次物体(书本、台灯等小件物品)分别生成,解决了现有方法在稠密室内场景中难以兼顾全局布局和局部细节的问题。
ELF: Embedded Language Flows
ELF 提出了一种基于连续时间 Flow Matching 的扩散语言模型,在连续嵌入空间中完成去噪,仅在最后一步做离散化,从而自然兼容 CFG 等图像扩散中的成熟技术,以更少的采样步数和更少的训练 token 超越了现有离散和连续扩散语言模型。
A Real-Calibrated Synthetic-First Data Engine
SimuWoB: Simulating Real-World Mobile Apps for Fast and Faithful GUI Agent Benchmarking
SimuWoB 提出了一种基于LLM的移动应用环境合成框架,自动生成120个高保真、带可执行验证器的可交互移动应用测试环境,揭示当前最强移动GUI agent在复杂任务上的成功率仅27.92%。
OSMa-Bench++: Toward Open-Ended Benchmarking of Semantic Mapping for Manipulation with Prompt-Generated Synthetic Scenes
OSMa-Bench++ 提出了一种基于prompt生成合成室内场景的语义建图基准扩展方案,通过可控的合成场景生成实现对物体遮挡、杂乱布局和光照变化等操作相关边缘场景的定向压力测试。
CasLayout: Cascaded 3D Layout Diffusion for Indoor Scene Synthesis with Implicit Relation Modeling
CasLayout 受专业室内设计师工作流程启发,将家具布局生成分解为四个级联的条件扩散过程——家具类型、属性、关系隐空间、边界框位置——并引入隐式稀疏关系建模来减少冗余约束,实现了可控且高质量的室内场景合成。
Lucid-XR: An Extended-Reality Data Engine for Robotic Manipulation
Towards Scalable Terminal Task Synthesis via Skill Graphs
SkillSynth 通过构建场景中介的技能图谱,从图中采样路径并利用多智能体系统自动合成多样化的终端任务实例,从而为训练终端智能体提供高质量、可扩展的执行轨迹数据。
From Experience to Skill: Multi-Agent Generative Engine Optimization via Reusable Strategy Learning
本文提出 MAGEO 框架,将生成式引擎优化(GEO)重新定义为策略学习问题,通过多智能体协作执行优化,并将成功的编辑模式蒸馏为可复用的技能,在多个主流生成式引擎上显著超越启发式基线。
MetaEarth3D: Unlocking World-scale 3D Generation with Spatially Scalable Generative Modeling
MetaEarth3D 是首个能够在行星尺度进行空间一致性 3D 场景生成的生成式基础模型,通过将超广域 3D 生成重构为尺度空间和维度空间中的渐进概率分布转移,跨越地形级、城市级和街区级等多个层级,实现了从单张卫星图像或文本描述到连续无界 3D 场景的生成。
From Seeing to Simulating: Generative High-Fidelity Simulation with Digital Cousins for Generalizable Robot Learning and Evaluation
Rein3D: Reinforced 3D Indoor Scene Generation with Panoramic Video Diffusion Models
Rein3D 提出了一种"修复-精化"循环范式,通过径向探索策略渲染不完善的全景视频,利用全景视频扩散模型修复缺失的几何和纹理,再将修复后的高保真视频回传更新全局 3DGS 场,实现了从单张全景图出发的高质量、全局一致的 3D 室内场景重建。
ComSim: Building Scalable Real-World Robot Data Generation via Compositional Simulation
SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds
COVERT: Controllable and Verifiable Tool-Use Data Synthesis for Agentic Reinforcement Learning
COVERT 提出了一种两阶段合成数据流水线,先生成可靠的基础工具调用轨迹,再通过"保留最优解"(oracle-preserving)的增强策略系统性地增加环境复杂度,从而为强化学习提供可自动计算奖励的训练环境,显著提升大语言模型在工具调用场景下的鲁棒性。
Dynamic Context Evolution for Scalable Synthetic Data Generation
Co-generation of Layout and Shape from Text via Autoregressive 3D Diffusion
3D-ARD+ 提出了一种全新的自回归扩散范式,能够根据详细文本指令逐步生成3D场景,同时精确控制每个物体的布局位置、几何形状和外观纹理,在复杂空间关系建模上显著超越已有方法。
GenAssets: Generating in-the-wild 3D Assets in Latent Space
GenAssets 提出了一种"先重建后生成"的两阶段框架,通过在潜空间中学习3D资产扩散模型,直接从真实世界的稀疏、部分遮挡的自动驾驶传感器数据中生成高质量、完整的360度3D资产。
Synthetic Computers at Scale for Long-Horizon Productivity Simulation
本文提出了一种大规模创建用户专属合成计算机环境的方法,并在此环境中运行超过2000轮的长周期生产力仿真,产生丰富的经验学习信号,显著提升agent在生产力场景中的表现。
Scalable Evaluation of the Realism of Synthetic Environmental Augmentations in Images
Large-Scale Terminal Agentic Trajectory Generation from Dockerized Environments
TerminalTraj 提出了一套从 Docker 化环境中大规模生成终端智能体轨迹的完整流水线,通过预测性质量过滤和可执行验证代码,从近百万个 GitHub 仓库中筛选并生成了超过 5 万条高质量的多轮交互轨迹,训练出的 TerminalTraj-32B 模型在 TerminalBench 1.0 和 2.0 上分别取得了超过骨干模型 20 分和 10 分的提升。
VL-JEPA: Joint Embedding Predictive Architecture for Vision-language
VL-JEPA 提出了一种基于联合嵌入预测架构的视觉语言模型,通过在连续嵌入空间而非离散 token 空间中进行预测,用更少的可训练参数实现了更强的多模态任务能力。
Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning
本文提出 Agent World Model (AWM),一个全合成环境生成管线,通过自动生成 1,000 个代码驱动、数据库支撑的交互环境,实现了大规模 agentic RL 训练,并在三个基准测试上展现了强大的分布外泛化能力。
Endless Terminals: Scaling RL Environments for Terminal Agents
From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents
本文提出 AReaL-SEA 框架,通过多智能体协同的自进化数据合成管线生成可验证的训练数据,并结合基于验证器的结果奖励 RL(GRPO)训练多轮交互式工具使用智能体,在 π²-bench 基准上取得了显著的性能提升。
AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning
AutoEnv 提出了一个自动生成异构环境的框架,并构建了 36 个多样化环境的基准数据集 AutoEnv-36,系统性地揭示了固定学习方法无法在异构环境中有效泛化的现象,指出跨环境智能体学习需要环境自适应的策略选择。
SynthTools: A Framework for Scaling Synthetic Tools for Agent Development
SynthTools 提出了一个可扩展的框架,通过层次化领域进化自动生成、模拟和审计合成工具,为 AI Agent 的训练和评估提供大规模、多样化且可靠的工具生态系统。
UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning
本文提出 Instruction-as-Reasoning 范式,将 GUI grounding 中的自然语言指令从静态输入升级为动态推理路径,通过 SFT+GRPO 两阶段训练让模型学会从多视角分析指令并选择最优推理路径,在五个主流 benchmark 上取得 SOTA。
Group Sequence Policy Optimization
GSPO 提出用序列似然(sequence likelihood)定义重要性比率替代 GRPO 的 token 级重要性比率,从根源上解决 GRPO 在大规模 RL 训练中的不稳定性问题,并在 Qwen3 系列模型上验证了其优越性。
Agentic Reinforced Policy Optimization
V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning
V-JEPA 2 通过在超过 100 万小时互联网视频上进行自监督预训练,结合少量机器人交互数据进行后训练,构建了一个能够同时理解视频内容、预测未来状态并驱动机器人完成物理操作的统一世界模型。
Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning
Tool-Star 是一个基于强化学习的框架,通过两阶段训练(冷启动微调 + 多工具自批评 RL)和数据合成管线,使 LLM 能够在逐步推理过程中自主调用搜索引擎、代码解释器等多种外部工具,在 10+ 个挑战性推理基准上显著超越了单工具 RL 方法。
Procedural Environment Generation for Tool-Use Agents
RandomWorld 是一个通过过程化生成创建可交互工具和非线性组合任务的流水线,利用合成数据对 LLM 进行 SFT 和 RL 训练,在多个工具使用基准上取得性能提升,并在 NESTFUL 数据集上创下两个指标的新 SOTA。
Crys-JEPA: Accelerating Crystal Discovery via Embedding Screening and Generative Refinement
本文揭示了晶体 de novo 生成中稳定性和新颖性之间的根本权衡,并提出 Crys-JEPA——一种基于能量的感知潜空间代理模型,通过筛选-精炼管道显著提升同时满足稳定、唯一、新颖晶体的生成比例。
WebThinker: Empowering Large Reasoning Models with Deep Research Capability
WebThinker 通过为大型推理模型集成深度网络探索器和自主"思考-搜索-起草"策略,使模型在推理过程中能自主搜索网页、导航和撰写研究报告,显著提升了复杂推理和报告生成任务的性能。
DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments
DeepResearcher 是首个在真实网络搜索环境中通过端到端强化学习训练 LLM 深度研究智能体的框架,相比 prompt 工程基线提升高达 28.9 分,并涌现出规划、交叉验证、反思和诚实等类人认知行为。
Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis
本文提出 DataPRM,一种面向数据分析 Agent 的环境感知型过程奖励模型,通过主动环境交互验证和反思感知的三元奖励策略,解决现有 PRM 在数据分析任务中无法检测静默错误和误判探索性错误的问题。
AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents
AppWorld 构建了一个由 9 个日常应用和 457 个 API 组成的可控执行环境,以及包含 750 个任务的基准测试套件,专门用于评估需要通过编写复杂代码与多个应用交互的自主编码智能体。
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
DeepSeekMath 通过从 Common Crawl 中精选 120B 数学 token 进行持续预训练,并提出 GRPO(Group Relative Policy Optimization)强化学习算法,使 7B 模型在竞赛级 MATH 基准上达到 51.7%,接近 GPT-4 水平。
Direct Preference Optimization: Your Language Model is Secretly a Reward Model
DPO 通过将 RLHF 中的奖励模型隐式地表达为语言策略本身,把复杂的"训练奖励模型 + 强化学习优化"两阶段流程简化为一个简单的二元分类损失,无需强化学习即可直接从人类偏好数据中优化语言模型。
Proximal Policy Optimization Algorithms
PPO 通过引入裁剪概率比率的代理目标函数,用简单的一阶优化方法实现了类似 TRPO 的信赖域策略更新效果,在样本效率、实现简洁性和实际性能之间取得了优异的平衡。