COVERT: Controllable and Verifiable Tool-Use Data Synthesis for Agentic Reinforcement Learning

一句话总结

COVERT 提出了一种两阶段合成数据流水线，先生成可靠的基础工具调用轨迹，再通过"保留最优解"（oracle-preserving）的增强策略系统性地增加环境复杂度，从而为强化学习提供可自动计算奖励的训练环境，显著提升大语言模型在工具调用场景下的鲁棒性。

▼

大语言模型（LLM）工具调用能力：现代大语言模型不仅需要回答问题，还需要调用外部工具（API、计算器、代码解释器等）来获取实时信息或执行操作。例如，一个模型可能需要调用天气 API 来回答"今天上海下雨吗？"。

监督微调（SFT）：传统上，训练模型使用工具的方法是收集大量"用户提问 -> 工具调用 -> 工具返回结果 -> 最终回答"的示例数据，让模型模仿这些示例。

强化学习（RL）：与 SFT 不同，RL 让模型自己尝试调用工具，然后根据结果的好坏给予奖励或惩罚。这种方式可以让模型学会更复杂的策略，但它需要一个可以执行工具调用的环境和可靠的奖励信号。

RLVR（Verifiable Rewards RL）：一种强化学习范式，其中奖励可以通过规则自动计算（例如判断答案是否正确），而不需要人工标注。

验证数据合成的挑战：为 RL 合成工具使用数据面临两难——既要合成足够多样化的场景（包含各种干扰、噪声、错误情况），又要确保知道"正确解"是什么，这样才能自动计算奖励。

▼

COVERT 的核心洞察可以用一个比喻来理解：想象你在训练一个厨师（LLM）做菜。传统的 SFT 方式是给厨师看菜谱，照着做就好。但如果要训练厨师应对复杂情况——冰箱里有多余的食材（干扰工具）、客人说"我想吃那个红红的圆的东西"（模糊查询）、炉子偶尔会熄火（工具输出错误）——SFT 就无能为力了。

COVERT 的做法是：先让厨师在简单环境下做菜（基础轨迹生成），确保他会最基本的菜式。然后在一个模拟厨房里，系统性地制造各种意外情况，但厨师手里始终有一份"标准答案"——无论环境怎么变，最正确的做菜步骤和最终菜品质量是已知的。这样，当厨师在模拟厨房里练习时，系统可以自动判断他做得好不好。

核心的"保留最优解"（Oracle-Preserving）原则是：在增加环境复杂度时，确保正确的工具调用步骤（c*）和最终答案（a*）保持不变，这样模型在复杂环境中的表现就可以通过简单的参考匹配来评估。

▼

▼

▼

▼

▼