一句话总结
COVERT 提出了一种两阶段合成数据流水线,先生成可靠的基础工具调用轨迹,再通过"保留最优解"(oracle-preserving)的增强策略系统性地增加环境复杂度,从而为强化学习提供可自动计算奖励的训练环境,显著提升大语言模型在工具调用场景下的鲁棒性。
背景与前置知识
▼大语言模型(LLM)工具调用能力:现代大语言模型不仅需要回答问题,还需要调用外部工具(API、计算器、代码解释器等)来获取实时信息或执行操作。例如,一个模型可能需要调用天气 API 来回答"今天上海下雨吗?"。
监督微调(SFT):传统上,训练模型使用工具的方法是收集大量"用户提问 -> 工具调用 -> 工具返回结果 -> 最终回答"的示例数据,让模型模仿这些示例。
强化学习(RL):与 SFT 不同,RL 让模型自己尝试调用工具,然后根据结果的好坏给予奖励或惩罚。这种方式可以让模型学会更复杂的策略,但它需要一个可以执行工具调用的环境和可靠的奖励信号。
RLVR(Verifiable Rewards RL):一种强化学习范式,其中奖励可以通过规则自动计算(例如判断答案是否正确),而不需要人工标注。
验证数据合成的挑战:为 RL 合成工具使用数据面临两难——既要合成足够多样化的场景(包含各种干扰、噪声、错误情况),又要确保知道"正确解"是什么,这样才能自动计算奖励。
核心思想详解
▼COVERT 的核心洞察可以用一个比喻来理解:想象你在训练一个厨师(LLM)做菜。传统的 SFT 方式是给厨师看菜谱,照着做就好。但如果要训练厨师应对复杂情况——冰箱里有多余的食材(干扰工具)、客人说"我想吃那个红红的圆的东西"(模糊查询)、炉子偶尔会熄火(工具输出错误)——SFT 就无能为力了。
COVERT 的做法是:先让厨师在简单环境下做菜(基础轨迹生成),确保他会最基本的菜式。然后在一个模拟厨房里,系统性地制造各种意外情况,但厨师手里始终有一份"标准答案"——无论环境怎么变,最正确的做菜步骤和最终菜品质量是已知的。 这样,当厨师在模拟厨房里练习时,系统可以自动判断他做得好不好。
核心的"保留最优解"(Oracle-Preserving)原则是:在增加环境复杂度时,确保正确的工具调用步骤(c*)和最终答案(a*)保持不变,这样模型在复杂环境中的表现就可以通过简单的参考匹配来评估。