SynthTools: A Framework for Scaling Synthetic Tools for Agent Development

Tommaso Castellani, Naimeng Ye, Daksh Mittal, Thomson Yen, Hongseok Namkoong 2025-11-11
AI Agent 合成工具生成 工具模拟 工具审计 LLM评估

一句话总结

SynthTools 提出了一个可扩展的框架,通过层次化领域进化自动生成、模拟和审计合成工具,为 AI Agent 的训练和评估提供大规模、多样化且可靠的工具生态系统。

背景与前置知识

要理解这篇论文,需要了解以下基础概念:

  1. AI Agent 与工具使用:现代 LLM Agent(如 Claude、GPT)越来越多地依赖外部工具(API)来完成复杂任务。工具使用能力已成为 Agent 性能的核心指标。但当前模型在可靠地使用工具方面仍面临挑战。
  2. 真实 API 的局限性:直接使用真实 API 作为训练和评估环境存在诸多问题——需要 API 密钥、有调用频率限制、接口经常变动或废弃、难以复现实验结果。这些因素使得真实 API 不适合大规模训练和稳定评估。
  3. 合成数据:在机器学习中,通过算法生成而非从真实世界收集的数据。合成工具即人工生成的工具规格和模拟行为,用于替代真实 API。
  4. 层次化生成:从粗粒度到细粒度逐步分解的生成策略。例如:领域 → 子领域 → 任务 → 工具。
  5. LLM-as-Judge:使用大语言模型作为评判者来评估另一个模型输出的质量。这里用于审计工具模拟器的响应是否正确。

核心思想详解

SynthTools 的核心洞察是:可以用 LLM 本身来生成、模拟和审计工具,从而摆脱对真实 API 的依赖。

想象你要训练一个 AI 助手使用各种工具(订票、查库存、管理订单等)。传统方法需要对接真实 API,但真实 API 不稳定、有限额、还可能下线。SynthTools 的思路类似"搭建一个模拟城市"——不用真实的城市,而是用 LLM 生成一套逼真的工具系统,包括工具的接口定义、行为模拟和质量审计。

整个框架分为三个阶段:

  • 造工具(Tool Generation):用 LLM 按照层次化流程自动生成各种领域的工具规格
  • 模拟工具行为(Tool Simulation):当 Agent 调用这些工具时,用 LLM 模拟出合理的返回结果
  • 审计工具质量(Tool Audit):用另一个 LLM 充当"质检员",检查模拟器返回的结果是否正确

方法逐步拆解

关键公式/算法解读

实验设计分析

关键图表

局限性