Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning

Guanting Dong, Yifei Chen, Xiaoxi Li, Jiajie Jin, Hongjin Qian, Yutao Zhu, Hangyu Mao, Guorui Zhou, Zhicheng Dou, Ji-Rong Wen 2025-05-22
强化学习 工具集成推理 多工具协作 LLM 推理 GRPO 数据合成

一句话总结

Tool-Star 是一个基于强化学习的框架,通过两阶段训练(冷启动微调 + 多工具自批评 RL)和数据合成管线,使 LLM 能够在逐步推理过程中自主调用搜索引擎、代码解释器等多种外部工具,在 10+ 个挑战性推理基准上显著超越了单工具 RL 方法。

背景与前置知识

工具集成推理 (Tool-Integrated Reasoning, TIR):传统 LLM 只靠语言本身进行推理,而 TIR 让模型在推理链中嵌入对外部工具(如搜索引擎、代码执行器)的调用,把"纯语言推理"扩展为"交互式推理"。类比:如果 LLM 的推理像闭卷考试,TIR 就像开卷考试 + 可以用计算器 + 可以查资料。

强化学习 (RL) 与 GRPO:RL 通过奖励信号优化模型行为。GRPO (Group Relative Policy Optimization) 是 DeepSeekMath 提出的 RL 算法,用一组 rollout 的相对表现来估计 baseline,无需单独训练 critic 模型。类比:GRPO 像是"小组成员互评",每次生成一组答案,组内相互比较来决定谁好谁坏。

课程学习 (Curriculum Learning):先学简单的,再学难的,循序渐进地提升模型能力。Tool-Star 将数据按难度分为简单/困难两组,分别用于 SFT 和 RL 阶段。

SFT 与 DPO:SFT(监督微调)让模型模仿好的示例;DPO(直接偏好优化)通过对比"好答案"和"坏答案"来训练模型偏好。

核心思想详解

Tool-Star 要解决的核心问题是:如何让 LLM 在推理时不仅能用一个工具,而是能协调多个工具(搜索 + 代码 + 浏览器)进行协作推理?

之前的 TIR 方法存在三个关键瓶颈:

  • 数据稀缺:高质量的"带工具调用的推理链"数据很难获取
  • 单工具局限:现有 RL 方法大多只优化单一工具(要么只用搜索,要么只用代码),导致跨领域能力不均衡
  • 奖励设计不足:简单的"对/错"奖励无法引导模型学会多工具协作

Tool-Star 的解决思路像培养一个"全能型学生":先通过大量练习(数据合成 + SFT)建立基本功,再通过自主探索 + 自我批评(self-critic RL)学会灵活组合不同工具。

方法逐步拆解

关键公式/算法解读

实验设计分析

关键图表

局限性