主要工作

env

主要工作

构建了一个框架env,框架可以生成工具。三个核心组件:

  • 工具生成模块
  • 工具模拟模块
  • 工具审计模块

有点类似后端的 mock 方法

模块

  • 工具生成模块需要具有可拓展性、多样性和真实性。
  • 工具模拟模块接收生成模块生成的工具范式,并生成响应。
  • 工具审计模块确保了模拟模块的真实性。

工具生成模块

流程:

  • 从通用领域开始
  • 拆解成子领域
  • 到任务家族
  • 最后到特定工具 还做了个去重复

工具模拟模块

两个阶段:

  • 参数验证
  • 响应生成

工具审计模块

是为了删除难以模拟和不准确到工具。 设计了一个大语言模型评判器,接收工具规格、测试调用和模拟响应作为输入。