DeepResearcher：交大、SII发布首个真实环境强化学习「AI研究者」模型

更新时间：2025-04-04 23:50:06 发布时间：20小时前浏览：6757

内容摘要上海交通大学与 SII 联合发布了 DeepResearcher，代码训练框架完全开源。这是首个在真实网络环境中通过强化学习训练的 AI 研究模型。随着大型语言模型（LLMs）推理能力的飞速发展，OpenAI、Google 和 XAI 等科

上海交通大学与 SII 联合发布了 DeepResearcher，代码训练框架完全开源。这是首个在真实网络环境中通过强化学习训练的 AI 研究模型。

随着大型语言模型（LLMs）推理能力的飞速发展，OpenAI、Google 和 XAI 等科技巨头纷纷推出了备受欢迎的 Deep Research 产品。这些工具能帮助用户整合海量网络信息，解决复杂问题，大大提升研究效率。

但现有系统存在两大痛点：一方面，商业产品如 OpenAI 的 Deep Research 完全是黑盒，其技术细节不对外公开；另一方面，开源项目往往依赖人工设计的工作流程，导致行为僵化、泛化能力差，在复杂研究场景中表现脆弱。

DeepResearcher 通过强化学习扩展（RL scaling）在真实网络环境中训练，自发形成了令人惊叹的研究能力。以图中所示的例子为证：在回答问题时，DeepResearcher 不只是简单搜索信息，而是展现出人类才有的复杂行为模式 —— 自主规划研究步骤、动态调整搜索策略、交叉验证不同来源的信息。

特别值得注意的是，当面对谁是电影先驱这类开放性问题时，DeepResearcher 不会盲目接受首次搜索结果，而是主动开展第二轮更精确的搜索以验证信息准确性，确保最终答案的可靠性。这种自发形成的交叉验证行为，是 AI 真正理解研究本质的体现！

虽然近期研究尝试将强化学习与信息检索结合，但它们大多基于本地知识库模拟搜索，而非在真实网络环境中训练。这就像在模拟水池里学游泳，而非真正的大海中历练。

而 DeepResearcher 尝试解决这个问题，它直接与实时搜索引擎互动，在真实互联网的复杂环境中学习研究技能。就像人类研究者一样，它能自主规划研究路径、交叉验证信息、动态调整策略，甚至在信息不足时坦诚承认限制。

这一开创性工作不仅填补了开源 Deep Research 领域的关键空白，也为理解如何培养 AI 的真实研究能力提供了全新视角。

论文标题：DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments

论文地址：GAIR-NLP/DeepResearcher/blob/main/resources/DeepResearcher.pdf

代码地址：GAIR-NLP/DeepResearcher

模型地址：GAIR/DeepResearcher-7b

结果总结

DeepResearcher 在多个问答数据集上超过所有基线，与基于提示工程的智能体相比，DeepResearcher 在研究任务完成度方面最高可提升 28.9 分。相较于基于 RAG 的强化学习（RL）智能体，DeepResearcher 的提升幅度最高可达 7.2 分。这在知识范围超出维基百科的 Bamboogle 测试集上尤为明显。

真实搜索环境的直接交互不仅仅是一个实现细节，而是构建能够在真实世界应用中高效执行研究任务的自主系统的关键组成部分。

再利用真实环境进行强化学习训练后，模型展示出规划、反思、交叉验证等行为，并能保持诚实回答。

一、为什么要在真实环境做端到端 RL scaling

在开发真正有效的深度研究代理时，训练环境的选择至关重要。与传统的基于本地 RAG 的 RL 训练相比，在真实网络环境中进行强化学习训练具有本质上的优势，这些优势是任何模拟环境都无法替代的。

真实网络环境具有高度的不确定性和复杂性

网络上的信息并非静态固定的知识库，而是动态变化的、多样化的、有时甚至是相互矛盾的内容集合。在这样的环境中训练，模型必须学会应对真实世界的挑战：评估信息的可靠性、处理不完整或过时的数据、从噪声中提取有价值的信号，以及整合来自不同领域的知识。相比之下，本地 RAG 环境过于干净和可控，它假设所有必要信息都已存在于固定知识库中，这一假设在真实的深度研究场景中几乎不成立。

真实环境还要求模型发展复杂的信息整合能力。模型需要学习从多个来源收集信息，并通过批判性思维将这些信息合成为连贯的答案。它必须权衡不同信息源的可靠性，识别并解决矛盾的观点，并以人类可理解的方式呈现结果。这种复杂的信息处理能力只能在面对真实信息源的多样性和不可预测性时才能真正发展起来。

RL Scaling 是泛化能力的保障

RL Scaling 训练是确保模型泛化能力的关键机制。通过在海量真实网络查询中不断试错和优化，模型能够逐步建立起对搜索策略的深刻理解，而非简单记忆特定查询 - 响应对。这种理解体现在多个层面：

模型学会了如何根据问题性质构建有效的搜索查询

它能够识别哪些搜索结果值得深入探索，哪些可以忽略

在初始搜索失败时，它能够调整策略，尝试不同的关键词或搜索角度

面对复杂问题，它能够分解为多个子问题并逐一解决

这些能力使得 DeepResearcher 能够处理训练中从未见过的问题类型，表现出真正的泛化能力，而非仅依赖于参数化记忆。

端到端训练让模型摆脱工作流的桎梏

传统的提示工程方法通常预设了固定的工作流程：先做 A，再做 B，最后做 C。这种方法在处理标准问题时可能有效，但面对复杂多变的研究任务时往往显得僵化。通过端到端的 RL 训练，DeepResearcher 能够：

自主发现最优的研究路径，而非遵循预定义的工作流。

根据问题的实际需求灵活调整搜索深度和广度。

在搜索过程中根据新发现的信息动态调整研究方向。

发展出人类设计者可能未曾预料到的创新性问题解决策略。

这种自主性使 DeepResearcher 能够应对各种研究场景，包括那些需要高度创造性和适应性的复杂问题。模型不再被限制在设计者的思维框架内，而是能够探索更广阔的解决方案空间。

通过在真实网络环境中进行 RL Scaling 和端到端训练，DeepResearcher 打破了传统研究代理的限制，为 AI 辅助研究开辟了新的可能性。

二、如何解决真实环境 RL Scaling 的工程挑战

在真实网络环境中进行强化学习面临许多本地 RAG 环境中不存在的技术挑战。研究团队通过创新方法解决了这些问题，确保系统能够在开放网络环境中稳定高效地运行。

处理大量并发请求

强化学习训练过程中，特别是使用 GRPO 算法时，系统需要为每个问题并行生成多个独立轨迹（在实现中是 16 个），这产生了海量并发请求。单一服务器会被网站反爬措施限流，且这些请求需要实时处理以保证训练效率。为此，研究团队设计了分布式 CPU 服务器集群架构，实现了高效的任务分配机制，并建立了请求队列和负载均衡系统，保证每台服务器所需要处理的任务量接近。

应对网络爬取与 API 限制

真实网络环境中，网站反爬措施、API 限制和网络延迟是不可避免的挑战。网站可能在检测到大量请求时返回无关内容或拒绝响应，而搜索引擎 API 通常有严格的频率限制和使用成本。为解决这些问题，研究团队实现了智能重试机制，能在遇到临时故障时自动调整策略；构建了高效的缓存命中系统，相同查询在一定时间内（如 7 天）直接从缓存获取结果；同时开发了请求分散策略，动态监控 API 使用情况并调整请求节奏，避免触发限制的同时控制成本。

多代理框架优化信息提取

网页内容通常结构复杂且冗长，与查询相关的信息可能只占很小一部分。为高效提取有价值信息，研究团队设计了多代理协作框架，让专门的阅读代理负责内容提取工作。系统将长网页分割成可管理的小段，阅读代理从页面开始部分顺序处理，基于当前查询和已收集信息动态决定是否继续读取。如果前几部分主要包含无关内容，系统会判断整个网页可能不值得深入，从而跳过后续内容。这种渐进式处理方法不仅提高了计算效率，还能更准确地识别和提取相关信息。

三、DeepResearcher 训练架构

DeepResearcher 的深度研究轨迹

在 DeepResearcher 的推理轨迹中，智能体会根据用户问题和观测结果进行迭代推理与工具选择，在动态的真实世界环境中通过网页搜索解决问题。

推理（Reasoning）：DeepResearcher 在执行具体动作之前必须先进行推理。每次推理过程都被封装在标签内，遵循 DeepSeek-R1 的设定。

网页搜索工具（Web Search Tool）：DeepResearcher 通过生成 JSON 格式的请求来调用网页搜索工具。搜索结果以结构化格式返回，每条结果包含标题（title）、URL 和摘要（snippet）。当前实现使用固定的 top-k（如 10）作为搜索结果的检索参数。未来工作可以探索基于 LLM 的动态参数优化以提升搜索效率。

网页浏览智能体（Web Browsing Agent）：网页浏览智能体为 DeepResearcher 系统提供可靠、与问题相关、且可增量更新的信息。具体而言，它对每个查询维护一个短期记忆库。当收到网页浏览请求时，智能体首先处理 URL 的第一页内容，然后基于查询、历史记忆和新获取的网页内容执行两种操作：

1. 判断是否需要继续读取下一个 URL / 页面片段，或者停止浏览。

2. 将相关信息追加到短期记忆库。

当智能体决定停止浏览时，它会整理短期记忆库中的新增信息并将其返回给 DeepResearcher 系统。

回答生成（Answering）：当模型判断已获取足够信息后，它会生成最终答案，并将其封装在标签内返回给用户。

训练方法

该项目采用强化学习（Reinforcement Learning, RL）训练智能体。本节概述了具体如何利用 RL 框架进行训练，以及在其中使用的具体算法和工具。

GRPO 算法

在本研究中，研究团队采用群体相对策略优化（Group Relative Policy Optimization, GRPO）算法。GRPO 通过利用参考策略以及由现有策略，生成的一组 rollout 来优化当前策略。具体而言，给定 G 个 rollout：

其中，每个输入 x 服从经验分布 D（即 x∼D），GRPO 使用这些轨迹来估计基准（baseline），而无需单独训练一个评论模型（critic）。随后，通过最大化以下目标函数来优化当前策略：

观查掩码（Masking Observations）

工具的输出是一个观察结果，而不是期望模型产生的输出。因此研究团队还使用掩码来防止工具的输出参与训练，只允许模型的响应对训练过程做出贡献。

奖励函数

使用 F1 分数作为奖励函数，并对格式错误的回复处以惩罚。

格式惩罚（Format Penalty）：如果答案格式不正确（例如缺少标签或存在结构性错误），智能体将受到 -1 的惩罚。

F1 奖励（F1 Reward）：如果答案格式正确，奖励将基于词级别 F1 分数，该指标用于衡量生成答案相对于参考答案的准确性。F1 分数越高，奖励越高。

四、实验结果解读

实验结果充分证明了 DeepResearcher 的强大性能和泛化能力，同时明确显示了在真实环境中训练的关键优势。

卓越的性能与强大的泛化能力

DeepResearcher 在各类评估基准上均表现出色。在训练领域内的测试中（包括 NQ、TriviaQA、HotpotQA 和 2Wiki 数据集），系统比提示工程 Agent 提高了 28.9 点的性能，比基于 RAG 的 RL Agent 提高了高达 7.2 点。这一结果特别显著，因为它表明即使在高度竞争的基准测试中，真实环境训练仍能带来明显的性能提升。

更令人印象深刻的是系统在领域外（OOD）数据集上的表现。在 MuSiQue、Bamboogle 和 PopQA 这三个与训练数据差异较大的测试集上，DeepResearcher 一致超越所有其他基线方法。这种跨领域的泛化能力证明系统不只是记住了特定分布的问答模式，而是真正学习了通用的研究技能。模型能够将在一种问题类型上学到的推理和搜索策略迁移到全新的问题领域，这对于实际应用至关重要。

真实环境训练的决定性优势

研究团队的实验设计特别突显了真实环境训练相对于模拟环境的优势。尤其是在 Bamboogle 测试集上，这个基准特意包含了需要超出维基百科知识范围的问题。在这一挑战上，DeepResearcher 显著优于所有仅使用本地 RAG 的方法。

最具说服力的是其中的对比实验：即使允许 R1-Searcher（一个在本地 RAG 上训练的系统）在推理阶段访问真实网络搜索，它的性能仍然远低于 DeepResearcher。这一结果清晰地表明，仅仅在推理阶段使用真实搜索是不够的，真正的关键在于训练过程中直接与真实环境互动。

五、RL scaling 后的涌现行为

此外，研究团队的定性分析揭示了 DeepResearcher 通过端到端的 RL scaling，DeepResearcher 展现出多种非预期的认知能力，这些能力是自然涌现的，而非人工编程设计的结果。在问题求解过程中，DeepResearcher 展现出了初步规划、跨来源交叉验证答案、通过反思调整研究方向，以及在无法找到确切答案时保持诚实等能力。这些能力构成了深度研究智能体的重要特征，并反映了人类研究者所重视的核心技能。

1. 规划能力

DeepResearcher 能够在开始搜索前先制定初步计划，确定关键子问题和搜索策略，类似人类研究者的工作方法。

2. 交叉验证行为

系统会自动从多个来源获取信息并进行交叉验证，在遇到矛盾信息时，会基于可靠性和一致性进行判断，大大提高了答案准确性。

3. 反思和调整研究策略

当发现当前搜索路径无效时，DeepResearcher 能够反思已获取的信息，重新调整搜索方向。这种自适应行为使其能够克服初始搜索策略的局限性。

4. 诚实与透明

当无法找到确切答案时，系统会坦诚表明限制，而不是编造信息。这种诚实行为对于研究代理至关重要。

训练演化趋势

实验还发现了几个有趣的训练动态：

性能随强化学习逐步提升，F1 分数从 0.375 稳步增长到约 0.55。模型在强化学习过程中性能不断提高，表现出稳步优化的趋势。

随着训练进展，模型处理困难问题时会使用更多推理步骤和工具调用，随着训练的进行，不同难度水平下的工具调用次数也在增加。其中，4-hop（四跳问题）在 34 轮训练后仍保持增长趋势，这表明模型在处理更复杂问题时，仍在学习如何检索更多信息以提高推理能力。

所有推理步数设定下，响应长度均呈持续增长趋势，表明模型在训练过程中不断扩展其推理过程。随着推理复杂度的提高，模型能够适应性的生成越来越详细的响应，包括双重检查、细化和规划等高级推理行为。

六、总结与意义

DeepResearcher 代表了 AI 辅助研究的重大突破，首次在真实网络环境中成功实现大规模强化学习训练。该研究的意义主要体现在以下几个方面：

学术贡献

提出了 DeepResearcher，一种突破性的强化学习扩展方法，使大型语言模型（LLMs）能够在真实世界的网页搜索环境中高效运行。与依赖静态知识库或受控检索环境的现有方法不同，DeepResearcher 训练智能体直接与实时搜索引擎交互，使其能够应对开放网络中固有的复杂性和动态变化（如 API 限制、网页解析、反爬机制）。这种直接接触动态搜索环境，使 DeepResearcher 在任务完成度和研究能力方面，相较于基于提示工程（prompt-engineered）和基于 RAG 的强化学习方法均实现了显著提升。并开展了广泛实验，证明了真实环境训练的显著优势。

提出了专为真实网络环境设计的 RL 框架，实现迭代推理、搜索，及多源信息整合。通过采用端到端训练框架，DeepResearcher 突破了人工设计的固定流程，使智能体能够自主学习问题求解策略。这种方法不仅克服了真实世界网页搜索中的独特挑战，如网络延迟和反爬虫机制，还构建了一种稳健的多智能体架构，提升了智能体从网页中收集多样化信息的能力。最终，该系统展现出多种高级认知行为，包括规划（planning）、交叉验证（cross-validation）、反思（reflection）和诚实性（honesty），这些能力对于自主研究智能体至关重要。

观察并分析了系统的涌现行为，为未来研究提供了宝贵见解。DeepResearcher 的成功标志着LLM智能体发展中的重要里程碑。这一方法为构建更具适应性、智能性的系统提供了前景广阔的路径，使其能够解决复杂的开放域问题，并应用于现实世界的各类任务。

实际意义

为构建真正可靠、灵活的深度研究系统提供了新范式。

减少了对人工设计固定工作流的依赖，使系统更具自主性、适应性和探索行为。

展示了在复杂、开放环境中强化学习的潜力，证明在真实环境中扩展强化学习可以大幅提升研究性能。

举报收藏打赏