一句话总结
DeepResearcher 是首个在真实网络搜索环境中通过端到端强化学习训练 LLM 深度研究智能体的框架,相比 prompt 工程基线提升高达 28.9 分,并涌现出规划、交叉验证、反思和诚实等类人认知行为。
背景与前置知识
▼理解这篇论文需要以下基础概念:
大型语言模型(LLM):如 GPT、Qwen 等大规模预训练模型,能够理解和生成自然语言。
RAG(检索增强生成):一种让 LLM 在回答问题时先检索外部文档、再基于检索结果生成答案的方法。传统 RAG 使用固定的本地知识库(如 Wikipedia 文本),假设所有需要的信息都已在库中。
Prompt Engineering:通过精心设计提示词来引导 LLM 的行为。这种方法灵活但脆弱,难以泛化到复杂任务。
强化学习(RL):一种机器学习范式,智能体通过与环境的交互获得奖励信号,从而学习最优策略。DeepSeek-R1 和 Kimi K1.5 等工作已证明 RL 能显著提升 LLM 的推理能力。
GRPO(Group Relative Policy Optimization):一种 RL 算法,通过同一问题生成多条轨迹(rollout),用组内相对表现来估计优势函数,无需训练额外的 critic 网络。
深度研究(Deep Research):指需要多步搜索、信息综合和推理的复杂研究任务,如 OpenAI Deep Research 等产品所展示的能力。
核心思想详解
▼现有的深度研究智能体存在两个关键问题:基于 prompt 工程的方法行为僵化、泛化能力差;基于 RAG 的 RL 训练方法(如 Search-R1、R1-Searcher)虽然在静态知识库中训练,但无法应对真实网络的噪声、多样性和动态性。
DeepResearcher 的核心洞察是:在真实网络环境中进行端到端 RL 训练不是锦上添花,而是开发鲁棒研究能力的根本要求。 就像一个学生只在模拟题中练习(RAG 环境)永远无法完全应对真实考试(开放网络)一样——真实环境中的信息可能是过时的、矛盾的、或根本不存在的。
类比来说,如果 RAG 训练是在"温室"中培育植物,那么 DeepResearcher 就是在"野外"环境中培育——虽然更艰难,但长出来的能力更强壮、更适应真实世界。