Synthetic Computers at Scale: 大规模合成计算机环境用于长周期生产力仿真

一句话总结

本文提出大规模创建用户专属合成计算机环境的方法，在此环境中运行超过2000轮的长周期生产力仿真，产生丰富经验学习信号，显著提升agent在生产力场景中的表现。

背景与前置知识

▼

AI Agent的演进

AI助手正从对话式问答发展到仓库级代码编程，再到能在整个计算机环境工作的长周期agent。这些agent需要跨越数小时甚至数天执行复杂生产力任务。

生产力工作的特点

上下文高度依赖：扎根于已有文件、项目历史、前期决策和合作者反馈
长周期：典型生产力任务需要数天到数周
协作性：需要与经理、同事、客户等多方协调

现有瓶颈

真实agent轨迹难大规模收集（涉及隐私和商业机密），现有合成数据只创建独立任务，缺乏真实用户环境和上下文。

核心思想详解

▼

训练实习生，光出考题不够。更好的方式是为他安排"工位"——配备工作电脑、项目文件、同事联系方式。然后给他分配数周项目，让他在真实环境中工作。

本文做的就是规模化创建"虚拟工位"，在上面训练AI agent。

三层方法论递进

从Persona到用户画像：简单角色描述 -> 详细用户档案（姓名、职务、项目、习惯等）
从用户画像到计算机环境：规划目录结构、文件清单、依赖关系 -> 按序生成文件内容
从计算机环境到长周期仿真：Setup Agent生成目标和合作者 -> Work Agent每周计划/每日执行 -> 完成交付物

方法逐步拆解

▼

关键设计解读

▼

实验设计分析

▼

局限性

▼

Synthetic Computers at Scale: 大规模合成计算机环境用于长周期生产力仿真

一句话总结

背景与前置知识

AI Agent的演进

生产力工作的特点

现有瓶颈

核心思想详解

三层方法论递进

方法逐步拆解

Step 1: Persona驱动的用户档案生成

Step 2: 计算机环境规划

Step 3: 文件内容生成

Step 4: 设置目标和协作环境

Step 5: 每周计划和每日执行循环

Step 6: 学习信号提取

关键设计解读

依赖感知的文件生成

评估Rubric生成

仿真数据结构

实验设计分析

实验规模

仿真统计

资源释放

局限性

基本信息

实验结果

个人思考