Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis

Zhisong Qiu, Shuofei Qiao, Kewei Xu, Yuqi Zhu, Lun Du, Ningyu Zhang, Huajun Chen 2025-04
Process Reward Models Data Analysis Agent Large Language Models Test-Time Scaling Reinforcement Learning

一句话总结

本文提出 DataPRM,一种面向数据分析 Agent 的环境感知型过程奖励模型,通过主动环境交互验证和反思感知的三元奖励策略,解决现有 PRM 在数据分析任务中无法检测静默错误和误判探索性错误的问题。

背景与前置知识

要理解这篇论文,需要了解以下概念:

Process Reward Model (PRM):过程奖励模型,与只关注最终结果正确性的 Outcome Reward Model (ORM) 不同,PRM 对 Agent 解决问题的每一步都给出评分。可以类比为一个"逐题批改"的老师 vs "只看总分"的考试制度。PRM 之前在数学推理、代码生成等静态领域已经很成功了。

Data Analysis Agent:数据分析 Agent,即用大语言模型驱动的自动化数据分析系统。它能读取文件、编写和执行代码、分析数据并输出结果。采用 ReAct 范式——先思考再行动,行动后观察环境反馈。

Silent Error(静默错误):代码执行没有报错(没有抛出异常),但结果实际上是错误的。比如代码成功运行并生成了可视化图表,但图表中缺少了某个关键的数据缓冲区——从代码执行角度来说"没有错",但从分析结果角度看是错的。

Grounding Error(接地错误):Agent 在初次接触数据时因为不了解数据的实际结构(比如猜错了列名)而产生的错误。这类错误通常是可恢复的——Agent 通过环境反馈可以自我纠正。类似于你在陌生城市第一次走错路,但看了路标后就能找到正确方向。

核心思想详解

这篇论文的核心洞察是:现有的通用 PRM 在数据分析任务上"水土不服"

想象一个场景:你让 AI 分析一个复杂的数据集。AI 可能会:

  1. 先试探性地查看数据结构(可能因为不熟悉列名而报错)
  2. 逐步分析数据(中间可能有逻辑错误但代码不报错)
  3. 最终给出结果

现有 PRM 的问题是:

  • 看到"报错"就判为坏步骤 → 但试探性报错其实是正常探索
  • 看到代码"运行成功"就判为好步骤 → 但可能结果根本就是错的

DataPRM 的解决方案可以类比为一个有实验室权限的审稿人

  • 主动验证:不只是"看"代码文本,还能实际运行代码、调用工具来检查结果是否正确
  • 区分错误类型:把错误分为"致命错误"和"可恢复的探索性错误",对后者给予宽容评分

方法逐步拆解

关键公式/算法解读

实验设计分析

关键图表

局限性