主要工作
env
主要工作
构建了一个框架env,框架可以生成工具。三个核心组件:
- 工具生成模块
- 工具模拟模块
- 工具审计模块
有点类似后端的 mock 方法
模块
- 工具生成模块需要具有可拓展性、多样性和真实性。
- 工具模拟模块接收生成模块生成的工具范式,并生成响应。
- 工具审计模块确保了模拟模块的真实性。
工具生成模块
流程:
- 从通用领域开始
- 拆解成子领域
- 到任务家族
- 最后到特定工具 还做了个去重复
工具模拟模块
两个阶段:
- 参数验证
- 响应生成
工具审计模块
是为了删除难以模拟和不准确到工具。 设计了一个大语言模型评判器,接收工具规格、测试调用和模拟响应作为输入。