Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning

一句话总结

Tool-Star 是一个基于强化学习的框架，通过两阶段训练（冷启动微调 + 多工具自批评 RL）和数据合成管线，使 LLM 能够在逐步推理过程中自主调用搜索引擎、代码解释器等多种外部工具，在 10+ 个挑战性推理基准上显著超越了单工具 RL 方法。

背景与前置知识

▼

工具集成推理 (Tool-Integrated Reasoning, TIR)：传统 LLM 只靠语言本身进行推理，而 TIR 让模型在推理链中嵌入对外部工具（如搜索引擎、代码执行器）的调用，把"纯语言推理"扩展为"交互式推理"。类比：如果 LLM 的推理像闭卷考试，TIR 就像开卷考试 + 可以用计算器 + 可以查资料。

强化学习 (RL) 与 GRPO：RL 通过奖励信号优化模型行为。GRPO (Group Relative Policy Optimization) 是 DeepSeekMath 提出的 RL 算法，用一组 rollout 的相对表现来估计 baseline，无需单独训练 critic 模型。类比：GRPO 像是"小组成员互评"，每次生成一组答案，组内相互比较来决定谁好谁坏。

课程学习 (Curriculum Learning)：先学简单的，再学难的，循序渐进地提升模型能力。Tool-Star 将数据按难度分为简单/困难两组，分别用于 SFT 和 RL 阶段。

SFT 与 DPO：SFT（监督微调）让模型模仿好的示例；DPO（直接偏好优化）通过对比"好答案"和"坏答案"来训练模型偏好。

核心思想详解

▼

Tool-Star 要解决的核心问题是：如何让 LLM 在推理时不仅能用一个工具，而是能协调多个工具（搜索 + 代码 + 浏览器）进行协作推理？

之前的 TIR 方法存在三个关键瓶颈：

数据稀缺：高质量的"带工具调用的推理链"数据很难获取
单工具局限：现有 RL 方法大多只优化单一工具（要么只用搜索，要么只用代码），导致跨领域能力不均衡
奖励设计不足：简单的"对/错"奖励无法引导模型学会多工具协作

Tool-Star 的解决思路像培养一个"全能型学生"：先通过大量练习（数据合成 + SFT）建立基本功，再通过自主探索 + 自我批评（self-critic RL）学会灵活组合不同工具。

方法逐步拆解

▼

第一步：数据合成管线（3 步）

1. 数据收集与采样：从开源数据集中收集约 90K 文本推理数据和 1K 已有 TIR 数据。然后通过两种方式扩展工具调用轨迹：

TIR 提示采样：用带工具调用指令的 prompt 让 LLM 生成带工具调用的推理链，自动调用工具获取反馈后拼回推理链继续生成
Hint 采样：先让模型做纯语言推理，然后在不确定的地方（"maybe"、"wait"）或答案后插入工具调用提示，让模型从该点继续进行工具增强推理

2. 工具使用质量归一化：通过三种策略过滤低质量样本：

控制工具调用频率（去除过度调用的样本）
去除重复工具调用（如同一段代码反复出现）
格式标准化（统一特殊 token 格式）

3. 难度感知分类：对每个问题同时做纯语言推理和工具推理，按结果分为四类：

类别 1-2：纯推理就对，不需要工具 → 进入 SFT 的文本子集
类别 3：工具推理才对，证明工具有效 → 进入 SFT 的工具子集
类别 4：两种都不对，最难 → 专门留给 RL 阶段

第二步：两阶段训练框架

阶段 1 - 冷启动 SFT：用简单 + 中等难度数据做监督微调，让模型学会基本的工具调用模式。

阶段 2 - 多工具自批评 RL：

先用 K 步标准 GRPO RL 训练，获得 RL 初始化模型
然后自采样：让模型自己生成多个候选答案
用分层奖励函数给每个答案打分
把高分答案作为"正例"、低分答案作为"负例"，用 DPO 做偏好学习
这个自批评过程每 K 步穿插一次，迭代进行

六种工具设计：

训练工具：搜索引擎、Web 浏览器代理、代码解释器
推理工具：代码调试器（修 bug）、工具回溯器（回退到失败调用前）、推理链精炼器（超长时压缩）

关键公式/算法解读

▼

实验设计分析

▼

关键图表

▼

局限性

▼

Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning

一句话总结

背景与前置知识

核心思想详解

方法逐步拆解

第一步：数据合成管线（3 步）

第二步：两阶段训练框架

关键公式/算法解读

公式 (1) - 问题建模

公式 (3) - 分层奖励函数

公式 (4) - GRPO 损失

公式 (5) - DPO 损失

实验设计分析

关键图表

局限性

基本信息

实验结果

个人思考