SynthTools: A Framework for Scaling Synthetic Tools for Agent Development

一句话总结

SynthTools 提出了一个可扩展的框架，通过层次化领域进化自动生成、模拟和审计合成工具，为 AI Agent 的训练和评估提供大规模、多样化且可靠的工具生态系统。

▼

要理解这篇论文，需要了解以下基础概念：

AI Agent 与工具使用：现代 LLM Agent（如 Claude、GPT）越来越多地依赖外部工具（API）来完成复杂任务。工具使用能力已成为 Agent 性能的核心指标。但当前模型在可靠地使用工具方面仍面临挑战。
真实 API 的局限性：直接使用真实 API 作为训练和评估环境存在诸多问题——需要 API 密钥、有调用频率限制、接口经常变动或废弃、难以复现实验结果。这些因素使得真实 API 不适合大规模训练和稳定评估。
合成数据：在机器学习中，通过算法生成而非从真实世界收集的数据。合成工具即人工生成的工具规格和模拟行为，用于替代真实 API。
层次化生成：从粗粒度到细粒度逐步分解的生成策略。例如：领域 → 子领域 → 任务 → 工具。
LLM-as-Judge：使用大语言模型作为评判者来评估另一个模型输出的质量。这里用于审计工具模拟器的响应是否正确。

▼

SynthTools 的核心洞察是：可以用 LLM 本身来生成、模拟和审计工具，从而摆脱对真实 API 的依赖。

想象你要训练一个 AI 助手使用各种工具（订票、查库存、管理订单等）。传统方法需要对接真实 API，但真实 API 不稳定、有限额、还可能下线。SynthTools 的思路类似"搭建一个模拟城市"——不用真实的城市，而是用 LLM 生成一套逼真的工具系统，包括工具的接口定义、行为模拟和质量审计。

整个框架分为三个阶段：

▼

Field → Sub-domain：给定一个领域（如医疗、金融），让 LLM 提出相关的子领域。要求子领域能：(a) 划分典型工作流；(b) 揭示利益相关者和实体；(c) 承载有意义的工具操作。
Sub-domain → Task：对每个子领域，LLM 提出一族任务。每个任务包含自然语言描述，适合用于文档和测试用例生成。
Task → Tool：LLM 为每个任务实例化一组具体工具。工具鼓励具备可组合性：每个工具指定上游依赖（消费什么）和下游输出（产生什么），使任务可以要求连续使用多个工具。
去重：基于工具描述嵌入的语义相似度，移除近似重复的工具。实验显示仅约 9% 的工具被过滤，证明生成工具的多样性。

参数验证：模拟器充当 API 网关，检查工具名、必需参数、数据类型、互斥约束等。任何条件不满足，返回具体的错误信息和 HTTP 状态码。
响应生成：验证通过后，模拟器根据元数据（metadata）生成响应。分两种情况：
- 数据生成：当调用不涉及元数据中的信息时，生成符合预定义 schema 和领域模式的合理输出
- 信息推理：当调用需要基于元数据推理时，系统性地交叉引用信息，推导出精确的 API 响应

▼

▼

▼

▼