COVERT: Controllable and Verifiable Tool-Use Data Synthesis for Agentic Reinforcement Learning

Siyuan Xu, Shiyang Li, Xin Liu, Tianyi Liu, Yixiao Li, Zhan Shi, Zixuan Zhang, Zilong Wang, Qingyu Yin, Jianshu Chen, Tuo Zhao, Bing Yin 2026-04-10
reinforcement learning tool use data synthesis oracle-preserving LLM

一句话总结

COVERT 提出了一种两阶段合成数据流水线,先生成可靠的基础工具调用轨迹,再通过"保留最优解"(oracle-preserving)的增强策略系统性地增加环境复杂度,从而为强化学习提供可自动计算奖励的训练环境,显著提升大语言模型在工具调用场景下的鲁棒性。

背景与前置知识

大语言模型(LLM)工具调用能力:现代大语言模型不仅需要回答问题,还需要调用外部工具(API、计算器、代码解释器等)来获取实时信息或执行操作。例如,一个模型可能需要调用天气 API 来回答"今天上海下雨吗?"。

监督微调(SFT):传统上,训练模型使用工具的方法是收集大量"用户提问 -> 工具调用 -> 工具返回结果 -> 最终回答"的示例数据,让模型模仿这些示例。

强化学习(RL):与 SFT 不同,RL 让模型自己尝试调用工具,然后根据结果的好坏给予奖励或惩罚。这种方式可以让模型学会更复杂的策略,但它需要一个可以执行工具调用的环境和可靠的奖励信号。

RLVR(Verifiable Rewards RL):一种强化学习范式,其中奖励可以通过规则自动计算(例如判断答案是否正确),而不需要人工标注。

验证数据合成的挑战:为 RL 合成工具使用数据面临两难——既要合成足够多样化的场景(包含各种干扰、噪声、错误情况),又要确保知道"正确解"是什么,这样才能自动计算奖励。

核心思想详解

COVERT 的核心洞察可以用一个比喻来理解:想象你在训练一个厨师(LLM)做菜。传统的 SFT 方式是给厨师看菜谱,照着做就好。但如果要训练厨师应对复杂情况——冰箱里有多余的食材(干扰工具)、客人说"我想吃那个红红的圆的东西"(模糊查询)、炉子偶尔会熄火(工具输出错误)——SFT 就无能为力了。

COVERT 的做法是:先让厨师在简单环境下做菜(基础轨迹生成),确保他会最基本的菜式。然后在一个模拟厨房里,系统性地制造各种意外情况,但厨师手里始终有一份"标准答案"——无论环境怎么变,最正确的做菜步骤和最终菜品质量是已知的。 这样,当厨师在模拟厨房里练习时,系统可以自动判断他做得好不好。

核心的"保留最优解"(Oracle-Preserving)原则是:在增加环境复杂度时,确保正确的工具调用步骤(c*)和最终答案(a*)保持不变,这样模型在复杂环境中的表现就可以通过简单的参考匹配来评估。

方法逐步拆解

关键公式/算法解读

实验设计分析

关键图表

局限性