DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments

一句话总结

DeepResearcher 是首个在真实网络搜索环境中通过端到端强化学习训练 LLM 深度研究智能体的框架，相比 prompt 工程基线提升高达 28.9 分，并涌现出规划、交叉验证、反思和诚实等类人认知行为。

▼

理解这篇论文需要以下基础概念：

大型语言模型（LLM）：如 GPT、Qwen 等大规模预训练模型，能够理解和生成自然语言。

RAG（检索增强生成）：一种让 LLM 在回答问题时先检索外部文档、再基于检索结果生成答案的方法。传统 RAG 使用固定的本地知识库（如 Wikipedia 文本），假设所有需要的信息都已在库中。

Prompt Engineering：通过精心设计提示词来引导 LLM 的行为。这种方法灵活但脆弱，难以泛化到复杂任务。

强化学习（RL）：一种机器学习范式，智能体通过与环境的交互获得奖励信号，从而学习最优策略。DeepSeek-R1 和 Kimi K1.5 等工作已证明 RL 能显著提升 LLM 的推理能力。

GRPO（Group Relative Policy Optimization）：一种 RL 算法，通过同一问题生成多条轨迹（rollout），用组内相对表现来估计优势函数，无需训练额外的 critic 网络。

深度研究（Deep Research）：指需要多步搜索、信息综合和推理的复杂研究任务，如 OpenAI Deep Research 等产品所展示的能力。

▼

现有的深度研究智能体存在两个关键问题：基于 prompt 工程的方法行为僵化、泛化能力差；基于 RAG 的 RL 训练方法（如 Search-R1、R1-Searcher）虽然在静态知识库中训练，但无法应对真实网络的噪声、多样性和动态性。

DeepResearcher 的核心洞察是：在真实网络环境中进行端到端 RL 训练不是锦上添花，而是开发鲁棒研究能力的根本要求。 就像一个学生只在模拟题中练习（RAG 环境）永远无法完全应对真实考试（开放网络）一样——真实环境中的信息可能是过时的、矛盾的、或根本不存在的。

类比来说，如果 RAG 训练是在"温室"中培育植物，那么 DeepResearcher 就是在"野外"环境中培育——虽然更艰难，但长出来的能力更强壮、更适应真实世界。

▼

▼

▼

▼

▼