Deep Researcher:序列规划反思与候选交叉
基本信息
- ArXiv ID: 2601.20843v1
- 分类: cs.AI
- 作者: Saurav Prateek
- PDF: https://arxiv.org/pdf/2601.20843v1.pdf
- 链接: http://arxiv.org/abs/2601.20843v1
导语
针对复杂博士级研究任务中并行扩展易导致知识碎片化的局限,本文提出了 Deep Researcher Reflect Evolve 架构。该系统利用 Gemini 2.5 Pro 模型,通过基于反思的顺序计划精炼与多候选者交叉算法,在维护全局上下文的同时动态优化搜索路径。实验表明,该方法在 DeepResearch Bench 上取得了领先成绩,为构建具有连贯叙事逻辑的深度智能研究系统提供了新的技术参考。
摘要
本文介绍了一种名为 Deep Researcher Reflect Evolve 的新型深度研究架构,旨在通过解决“并行扩展”范式的局限性,生成针对复杂博士级主题的详细研究报告。该系统主要由 Gemini 2.5 Pro 模型驱动,并在全球公认的博士级研究任务基准 DeepResearch Bench 上取得了领先成绩。
主要创新点与工作流程如下:
基于反思的顺序研究计划精炼: 与容易导致知识孤岛的并行方法不同,该系统采用顺序精炼流程。这使得智能体能够维护一个集中的全局研究上下文,从而回溯当前进度,对研究计划进行推理,并在运行时做出智能化的动态调整。
候选者交叉算法: 为了增强搜索效率,该算法部署了多个具有不同参数的 LLM 候选者,以探索更广阔的搜索空间。系统随后综合这些候选者的发现,以筛选出全面的研究响应。
一次性报告生成: 过程的最后阶段生成最终文档,确保报告具有统一的叙事逻辑和高密度的事实信息。
性能评估: 在 DeepResearch Bench 的 100 项博士级研究任务评估中,Deep Researcher 架构取得了 46.21 分的总体成绩。这一表现超越了包括 Claude Researcher、Nvidia AIQ、Perplexity、Kimi Researcher 和 Grok Deeper Search 在内的现有主流深度研究智能体。
结论: 研究结果表明,该架构的性能略优于作者之前的静态版本(Static DRA),进一步证实了顺序扩展范式在一致性上始终优于并行自我一致性范式。
评论
以下是对论文《Deep Researcher with Sequential Plan Reflection and Candidates Crossover》(以下简称 Deep Researcher)的深度学术评价。本文基于摘要及提供的创新点,从学术严谨性与应用落地两个维度进行剖析。
1. 研究创新性
- 论文声称: 现有的“并行扩展”范式容易导致知识孤岛,而本文提出的“顺序研究计划精炼”通过维护集中的全局研究上下文,实现了对复杂任务的动态调整。
- 证据: 系统在 DeepResearch Bench 基准测试中取得了领先成绩,且由 Gemini 2.5 Pro 驱动,采用了反思和候选者交叉机制。
- 学术推断与评价:
该研究在智能体架构层面提出了**“认知流与控制流的解耦”。传统的并行多智能体系统(如 AutoGPT 的某些变体)往往侧重于任务分发,却忽视了子任务间的语义累积。Deep Researcher 的创新在于将“反思”**视为一个显式的规划阶段,而非仅仅是一个错误修正步骤。
- 技术细节:通过“候选者交叉”,系统似乎引入了类似遗传算法的变异机制,允许在顺序执行过程中融合不同研究路径的发现。这不仅是简单的线性搜索,而是一种带有回溯能力的树状搜索策略。
- 关键假设:假设“顺序推理”在处理长尾知识和深度逻辑依赖时,优于“并行广度优先搜索”。
- 可能失效条件:当研究主题极其庞大且子问题高度解耦(例如跨学科文献综述)时,顺序方法可能因上下文窗口限制或推理链过长而出现“遗忘”现象,此时并行方法可能更高效。
2. 理论贡献
- 论文声称: 解决了并行扩展的局限性,通过全局上下文维护,实现了对研究计划的推理和动态调整。
- 推断:
本文在理论上强化了**“元认知”**在 AI 研究智能体中的核心地位。它暗示了一个理论命题:高质量的深度研究产出,依赖于研究过程中的“迭代规划密度”,而非单纯的信息检索量。
- 理论补充:该工作是对现有“ReAct”或“Reflexion”框架的补充,特别是在长周期任务管理上。它提出了一种“收敛式搜索”理论,即通过不断精炼计划来减少搜索空间的熵。
- 可验证检验:为了验证这一理论贡献,可以设计消融实验,对比“固定计划执行”与“动态精炼计划”在相同任务下的知识覆盖率和深度。如果动态精炼仅在长文本生成中显著提升质量,则证实了其关于上下文依赖的理论假设。
3. 实验验证
- 论文声称: 在 DeepResearch Bench 上取得了领先成绩,能够处理博士级研究任务。
- 证据: 提及了基准测试成绩,但摘要未详述具体的对比模型(如是否对比了 GPT-4 Researcher, STORM, 或其他 SOTA 基座模型直接生成)。
- 推断与评价:
- 可靠性分析:DeepResearch Bench 作为一个新提出的基准,其评估标准(人工 vs 自动化指标)的公信力至关重要。如果仅依赖模型评分,可能存在“自嗨”风险。
- 关键假设:假设该基准能有效反映“博士级”研究能力。
- 可验证检验:需要审查其**“幻觉率”和“引用准确性”**。学术研究不同于创意写作,事实性是底线。
- 复现实验建议:不仅看总分,应进行**“盲测”**,让人类博士评估者对比 Deep Researcher 与人类初级研究员的报告质量,以验证其“博士级”声称的含金量。
4. 应用前景
- 论文声称: 旨在生成针对复杂博士级主题的详细研究报告。
- 推断:
该架构在**“知识密集型行业”**具有极高的应用潜力。
- 具体场景:
- 投研与咨询:处理需要深度逻辑推演和广泛数据关联的行业分析报告。
- 科研辅助:作为博士生的“预研助手”,快速梳理文献脉络,识别研究空白。
- 法律与医疗:在长案例分析和复杂病史诊断中,其“顺序反思”机制能减少逻辑跳跃。
- 价值点:相比于直接使用 ChatGPT,该架构的**“过程可追溯性”**(通过顺序计划精炼)是企业级应用的关键,满足了合规性和审计需求。
- 具体场景:
5. 可复现性
- 论文声称: 系统主要由 Gemini 2.5 Pro 驱动。
- 推断:
- 清晰度:虽然提到了“顺序计划”和“交叉”,但具体的 Prompt 策略、上下文压缩算法以及“交叉”操作的具体实现细节(是向量检索拼接还是文本合并)在摘要中未完全披露。
- 依赖性:高度依赖 Gemini 2.5 Pro 的长上下文能力。如果换用模型(如 Llama 3 或 GPT-4o),性能可能会显著下降,因为该架构的核心是利用模型本身的推理能力来管理上下文,而非依赖外部向量数据库的硬检索。
- 关键假设:假设基座
技术分析
技术架构分析:Deep Researcher Reflect Evolve
1. 问题定义与背景
核心挑战
本研究致力于解决大语言模型(LLM)在执行长周期、多步骤研究任务时面临的上下文连续性缺失与静态规划局限性问题。具体而言,现有系统在处理需要深度整合信息的复杂任务时,往往难以像人类研究者一样保持逻辑连贯性,并缺乏根据中间结果动态调整研究路径的能力。
现有技术的局限
当前主流的深度研究系统(如基于并行搜索或树状搜索的架构)通常存在以下瓶颈:
- 信息碎片化:并行分支之间缺乏有效的上下文共享机制,导致信息孤立,难以形成统一的全局视角。
- 规划僵化:研究计划通常在初始阶段固定,执行过程中缺乏基于反馈的动态修正机制。
- 合成质量低:简单的信息拼接往往导致最终报告缺乏深度洞察和逻辑严密性。
2. 核心方法论:Reflect Evolve 架构
该架构提出了一种顺序扩展的研究范式,旨在通过迭代反思优化研究路径。其核心工作流程包含以下三个关键组件:
2.1 顺序计划精炼
系统采用“行动-反思-规划”的迭代循环,而非一次性生成完整计划。
- 执行:根据当前指令执行具体的研究操作(如信息检索)。
- 反思:评估当前获取的信息与既定研究目标之间的差距。
- 规划:基于全局上下文和反思结果,动态生成下一步行动。 这一机制维护了一个全局研究上下文,确保每一步操作都基于之前的积累,避免了并行模式下的信息割裂。
2.2 候选者交叉
为了弥补顺序推理可能导致的搜索空间狭窄问题,该架构引入了类似遗传算法的机制。
- 变异:部署多个具有不同参数配置(如温度设置、提示词微调)的 LLM 候选者。
- 交叉:系统对多个候选者的输出进行综合比对,筛选出高质量的信息片段,并将其合并到主研究流中。 这种设计在顺序框架内嵌入了并行的探索能力,旨在平衡搜索的深度与广度。
2.3 一次性报告生成
在完成所有研究步骤后,系统利用收集到的高密度上下文,一次性生成最终报告。该方法旨在避免分块生成常见的逻辑断层问题,确保最终输出在叙事和逻辑上的统一性。
3. 理论依据与设计逻辑
理论基础
该方法论基于认知科学中的“系统2思维”(慢思考)模型。人类在解决复杂问题时,通常采用顺序推理的方式,通过不断回顾和修正来推进思考过程,而非简单地并行尝试所有路径。
关键假设
- 连贯性优势:对于复杂推理任务,维护一个单一、连续的思维链,比汇总多个碎片化的思维链能产生更高质量的输出。
- 元认知能力:LLM 具备足够的元认知能力,能够有效评估自身当前研究状态与目标之间的偏差(即 Reflection 机制的有效性)。
技术创新点
- 范式转变:从主流的“并行自我一致性”转向“顺序反思与进化”,强调在深度任务中逻辑连贯性的重要性。
- 混合架构:将顺序推理的逻辑性与并行搜索的广度性相结合,通过“候选者交叉”试图在保持上下文连贯的同时,避免陷入局部最优。
研究最佳实践
最佳实践指南
实践 1:构建分阶段的顺序规划机制
说明: Deep Researcher 的核心优势在于将复杂的推理任务分解为顺序执行的子阶段。不要试图通过单次提示完成所有任务,而应设计一个包含“规划 - 执行 - 反思”的显式工作流。每个阶段专注于特定的目标(如信息检索、综合分析、假设生成),并按顺序传递上下文。
实施步骤:
- 定义阶段模板:为规划、研究和反思阶段分别设计独立的系统提示词。
- 建立状态传递协议:确保前一阶段的输出(如搜索查询、发现的事实、未解决的问题)能被结构化地传递给下一阶段。
- 设置中间检查点:在进入下一阶段前,验证当前阶段的输出是否满足预定义的质量标准。
注意事项: 避免阶段间的过度耦合,确保每个阶段有明确的输入输出规范,防止上下文窗口溢出或信息失真。
实践 2:实施动态反思与自我纠正
说明: “Reflection”组件用于评估当前进展的质量和完整性。系统应被设计为能够批判自己的输出,识别逻辑漏洞、信息缺失或搜索结果的偏差,并据此制定补救措施。这不仅仅是重新生成,而是基于元认知的迭代优化。
实施步骤:
- 引入批判者模型:在生成最终答案前,插入一个独立的步骤,专门用于质疑当前结论的可靠性。
- 制定检查清单:要求模型对照检查清单验证内容,例如“信息来源是否权威”、“是否存在反例”、“数据是否最新”。
- 触发重试机制:如果反思阶段发现严重缺陷,系统应自动生成新的搜索查询或重新推理,而不是直接输出低质量结果。
注意事项: 反馈循环必须具体且可操作。避免模糊的自我批评(如“写得不好”),应转化为具体的行动指令(如“需要验证2023年的统计数据”)。
实践 3:利用候选者交叉进化提升质量
说明: “Candidates Crossover”机制通过生成多个独立的候选解决方案,并从中交叉提取最优片段来合成最终答案。这种模拟自然选择进化的方法,能有效缓解单一推理路径可能出现的局部最优或幻觉问题。
实施步骤:
- 并行生成:在同一任务下,生成至少 2-3 个具有不同推理路径或搜索策略的独立草稿。
- 评估与打分:基于相关性、准确性和深度对每个草稿进行自动评估。
- 重组与综合:将高分草稿中的关键论点、数据点和结构化信息合并,去除冗余和矛盾,形成一个更强大的最终版本。
注意事项: 确保候选者之间具有一定的差异性。如果所有候选者都使用相同的搜索词,交叉进化的收益将递减。
实践 4:优化检索与生成的交互循环
说明: Deep Researcher 依赖外部知识来增强生成能力。最佳实践要求建立紧密的检索-生成循环,即模型不仅要被动地阅读搜索结果,还要根据搜索结果动态调整下一步的搜索策略,形成深度的知识挖掘。
实施步骤:
- 关键词扩展:模型应根据初始阅读内容,提取更专业的术语或实体进行后续搜索。
- 多轮迭代搜索:不要限制在第一轮搜索。设计机制允许模型根据“未知信息”主动发起 3-5 轮递归搜索。
- 上下文压缩:在多轮搜索中,对累积的上下文进行去重和摘要,保留关键信息,丢弃噪声。
注意事项: 监控 Token 消耗。多轮搜索会迅速填满上下文窗口,必须实施有效的信息过滤或分层摘要策略。
实践 5:设计结构化的输出协议
说明: 为了使复杂的研究结果具有可读性和可验证性,必须强制模型遵循严格的结构化输出格式。这包括引用来源、区分事实与观点、以及提供推理链的可视化。
实施步骤:
- 定义输出模式:规定输出必须包含摘要、详细发现、方法论、引用列表和局限性分析等部分。
- 强制引用链接:要求模型在陈述关键事实时,必须明确标注信息来源(如
[Source: URL])。 - 思维链展示:允许模型输出“思考过程”部分,让用户了解结论是如何一步步推导出来的。
注意事项: 结构化限制不应扼杀创造力。应在格式约束与内容的自然流畅之间取得平衡,避免生成机械化的文本。
实践 6:建立验证与置信度评分体系
说明: 由于 Deep Researcher 处理的是复杂任务,单一的答案可能存在风险。最佳实践包括为生成的结论提供置信度评分,并利用外部工具(如代码解释器或事实核查 API)进行验证。
实施步骤:
- 自我一致性检查:对于事实性查询,要求模型多次回答同一问题,比较结果的一致性。
- **
学习要点
- 该方法通过引入“顺序计划反思”机制,让智能体在执行每一步研究后进行自我评估与修正,从而显著提高了复杂研究任务的准确性和深度。
- 系统采用“候选方案交叉”策略,模拟进化算法思想,通过融合多个独立搜索路径中的有效信息,解决了单一搜索路径容易陷入局部最优的问题。
- 这种架构在长链路推理任务中表现出色,有效缓解了大语言模型在处理复杂、多步骤问题时的“幻觉”现象和逻辑断裂。
- 研究流程被解构为动态的规划、行动、观察和反思循环,使得智能体能够灵活适应未知环境并实时调整研究策略。
- 该框架证明了将反思机制与进化式搜索相结合,是提升自主智能体在开放域知识发现中性能的关键技术路径。
学习路径
学习路径
阶段 1:基础构建与上下文理解
学习内容:
- 大语言模型(LLM)基础架构:深入理解Transformer架构,特别是自注意力机制、KV Cache、位置编码以及Decoder-only模型的工作原理。
- Agent智能体核心概念:掌握ReAct(推理+行动)框架,理解Prompt Engineering中的思维链与上下文学习。
- 检索增强生成(RAG)入门:学习向量数据库、Embedding模型以及基础的检索-阅读-生成流程。
- 论文背景解读:通读《Deep Researcher Reflect Evolve》摘要与引言,理解该模型旨在解决长上下文任务中的“迷失中间”问题以及如何通过反思和进化机制提升研究深度。
学习时间: 2-3周
学习资源:
- 课程/文章:Andrej Karpathy的《Neural Networks: Zero to Hero》系列视频;Jay Alammar的《The Illustrated Transformer》。
- 论文:《ReAct: Synergizing Reasoning and Acting in Language Models》、《Attention Is All You Need》。
- 工具:Hugging Face Transformers文档,LangChain基础教程。
学习建议: 不要急于直接复现论文代码。首先确保你能够手动编写一个简单的ReAct Agent,并理解LLM在生成Token时是如何处理上下文窗口的。尝试使用OpenAI API或开源Llama模型运行一个基础的RAG流程,体会检索质量对最终答案的影响。
阶段 2:核心机制解构(反思与规划)
学习内容:
- 深度研究架构设计:剖析Deep Researcher的系统架构,区分“规划者”、“执行者”和“研究者”的角色分工。
- 顺序计划反思:学习如何实现多步推理过程中的自我评估。重点理解论文中如何利用LLM对已生成的中间结果进行批判性审查,并据此调整后续的搜索策略。
- 信息检索与评估:学习高级检索策略(如混合检索、重排序Rerank),以及如何训练或使用专门的Reward Model来评估检索到的信息片段的相关性和可信度。
- 长上下文管理:研究如何处理超长文本,包括滑动窗口、摘要压缩以及论文中可能使用的记忆管理机制。
学习时间: 3-4周
学习资源:
- 论文精读:重点阅读Deep Researcher论文中关于“Reflection Module”的方法论部分;参考《Reflexion: Language Agents with Verbal Reinforcement Learning》。
- 框架:LangGraph或AutoGen文档(学习如何构建循环图和状态机)。
- 数据集:HotpotQA(多跳问答数据集)、FreshQA(长尾事实查询)。
学习建议: 使用LangGraph或类似框架搭建一个简单的“规划-执行-反思”循环。尝试让Agent在回答完一个问题后,自动生成一份“自我批评报告”,并基于此报告重新检索缺失的信息。这是理解Deep Researcher核心竞争力的关键步骤。
阶段 3:候选交叉与进化策略
学习内容:
- 候选者生成机制:理解如何从不同的搜索路径或提示词变体中生成多个不同的候选答案或研究路径。
- 交叉与进化:这是论文的精髓部分。学习如何借鉴遗传算法的思想,将不同候选路径中的有效信息片段进行“交叉”组合,以生成更优的解决方案。
- 非参数化知识融合:研究如何不通过微调模型,而是通过Prompt层面的操作,将多个来源的异构信息融合成一个连贯、逻辑严密的最终报告。
- 评估指标:掌握Deep Research任务特有的评估标准,如FactScore(事实准确性)、Citation Precision(引用精确度)以及Coverage(覆盖度)。
学习时间: 3-5周
学习资源:
- 核心论文:深入研读Deep Researcher论文的实验部分和消融实验;参考《Tree of Thoughts》及《Self-RAG》。
- 工程实践:阅读Agentic Workflow相关的开源项目代码(如DeepResearch源码,如果开源)。
- 工具:LlamaIndex(高级检索模式)、DSPy(用于程序化优化LM提示和流程)。
学习建议: 在这个阶段,你需要自己实现一个简化版的“进化”模块。尝试让Agent针对同一个复杂问题生成三份不同的草稿,然后编写一个逻辑层(可以是基于规则的,也可以是另一个LLM调用)来提取这三份草稿中的独特事实并进行合并。观察这种机制是否比单次生成效果更好。
阶段 4:工程实现与系统优化
学习内容:
- 异步任务编排:Deep Researcher涉及大量的并行检索和LLM调用。学习Python的Asyncio或利用Celery/Ray进行分布式任务调度,以缩短研究等待时间。
- 成本与延迟优化:掌握智能体系统的Token消耗控制技巧,如小模型与大模型级联、语义缓存。
- 工具使用集成:学习如何扩展Agent的能力,使其不仅能检索文本,还能调用Python解释
常见问题
1: Deep Researcher Reflect Evolve 的核心创新点是什么?
1: Deep Researcher Reflect Evolve 的核心创新点是什么?
A: 该系统的核心创新在于将“顺序规划反思”与“候选方案交叉”机制相结合,以解决现有深度AI研究系统中常见的“局部最优”和“盲目搜索”问题。
具体而言,它包含两个关键模块:
- 反思机制:在顺序执行研究步骤时,系统会评估当前生成的查询或收集到的信息质量。如果发现结果不理想或偏离主题,它会动态调整后续的搜索策略,而不是机械地执行预设计划。
- 进化/交叉机制:系统会并行生成多个不同的研究路径或假设。通过借鉴遗传算法中的“交叉”概念,它将不同路径中的有效信息片段进行组合,从而生成更全面、更准确的研究结果,避免了单一视角的局限性。
2: 该系统与传统的 RAG(检索增强生成)或简单的 Agentic Workflow 有什么区别?
2: 该系统与传统的 RAG(检索增强生成)或简单的 Agentic Workflow 有什么区别?
A: 传统的 RAG 系统通常是一次性检索并生成答案,缺乏对信息深度的迭代挖掘。简单的 Agentic Workflow 虽然增加了多步推理,但往往容易陷入“死胡同”或在一个错误的路径上越走越远。
Deep Researcher Reflect Evolve 的区别在于:
- 动态纠错能力:通过“反思”组件,它具备自我纠错能力,能够意识到搜索过程中的偏差并回溯调整。
- 多路径融合:它不仅仅依赖单一线性逻辑,而是通过“候选方案交叉”同时探索多条路径,并将分散在不同来源的信息进行综合,从而在处理复杂、多维度问题时表现出更高的鲁棒性和准确性。
3: 论文中提到的“Candidates Crossover”(候选方案交叉)具体是如何工作的?
3: 论文中提到的“Candidates Crossover”(候选方案交叉)具体是如何工作的?
A: 在该系统的上下文中,“候选方案交叉”指的是一种信息综合与策略优化的过程。
当系统针对一个复杂主题生成多个独立的搜索查询或研究草案时,每个查询可能只揭示了真相的一部分。Crossover 机制会分析这些并行产生的中间结果(候选方案),识别出各自的高价值片段,然后将它们重新组合。例如,路径 A 可能找到了很好的数据来源,但分析不足;路径 B 分析深刻但数据陈旧。系统会将 A 的数据与 B 的分析结合,生成一个优于任何单一原始方案的最终结果。这种机制模仿了生物进化中的优势遗传,旨在进化出更优的答案。
4: 这种方法主要适用于哪些应用场景?
4: 这种方法主要适用于哪些应用场景?
A: 该方法主要适用于那些需要深度信息挖掘、多源数据整合以及复杂推理的任务,具体包括但不限于:
- 学术研究与文献综述:自动阅读大量论文,综合不同观点,形成全面的研究报告。
- 市场与竞争情报分析:从分散的新闻、财报和行业报告中提取关键信息,并进行交叉验证。
- 复杂问题解答:回答没有单一标准答案、需要多步推理和背景信息支持的开放性问题。
- 事实核查与深度调查:在信息相互矛盾的情况下,通过多路径搜索和反思来验证事实真相。
5: Deep Researcher Reflect Evolve 在实际部署中面临哪些挑战?
5: Deep Researcher Reflect Evolve 在实际部署中面临哪些挑战?
A: 尽管该架构在理论上很强大,但在实际部署中通常面临以下挑战:
- 计算成本与延迟:由于需要生成多个候选方案并进行反思和迭代,其 Token 消耗量和时间成本显著高于简单的问答模型。
- 评估标准的设定:“反思”机制依赖于一个可靠的评估标准来判断当前步骤是否有效。如果评估模型本身存在幻觉或标准不明确,可能会导致错误的反思方向,反而降低结果质量。
- 上下文窗口限制:多路径交叉需要模型同时处理大量来自不同分支的中间结果,这对大模型的上下文窗口长度和“大海捞针”能力提出了较高要求。
6: 该系统的“反思”步骤是由人类辅助还是完全自动化的?
6: 该系统的“反思”步骤是由人类辅助还是完全自动化的?
A: 根据该类系统的通用设计原则及论文描述,Deep Researcher Reflect Evolve 的“反思”步骤主要是完全自动化的。
系统利用大语言模型的推理能力来模拟人类的反思过程。它会根据预设的提示词或评分标准,检查当前收集的信息是否解决了核心问题,证据是否充分,逻辑是否连贯。如果系统检测到信息缺失或质量低下,它会自动重写查询或重新规划下一步行动,而无需人工干预。这种设计使得系统能够自主处理长时间的研究任务。
思考题
## 挑战与思考题
### 挑战 1: [简单]
问题**: 在 Deep Researcher 的架构中,“Sequential Plan Reflection”(序列计划反思)机制要求模型在执行下一步动作之前先进行自我评估。请设计一个简单的提示词策略,强制模型在生成搜索查询或调用工具前,必须输出一段关于“当前信息缺口”的分析,并解释这种显式反思步骤如何减少无效搜索的发生。
提示**: 考虑思维链中“中间步骤”的显式化。你需要设计一个结构化的输出格式,让模型无法跳过反思阶段直接进入动作执行。思考如何让模型对比“已知信息”与“目标问题”之间的差异。
引用
注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。
站内链接
- 分类: 大模型 / 论文
- 标签: Deep Researcher / AI Agent / 反思机制 / 顺序规划 / 候选交叉 / DeepResearch Bench / Gemini 2.5 Pro / RAG
- 场景: AI/ML项目 / RAG应用