AgentIR：面向深度研究智能体的推理感知检索

基本信息

ArXiv ID: 2603.04384v1
分类: cs.CL
作者: Zijian Chen, Xueguang Ma, Shengyao Zhuang, Jimmy Lin, Akari Asai
PDF: https://arxiv.org/pdf/2603.04384v1.pdf
链接: http://arxiv.org/abs/2603.04384v1

导语

随着深度研究智能体成为现代检索系统的主要用户，如何利用其显式的推理步骤以弥补传统检索方法的局限，成为亟待解决的问题。本文提出了 AgentIR 框架，通过将智能体的推理轨迹与查询词联合嵌入，并引入 DR-Synth 数据合成方法，构建了感知推理的检索模型。实验结果显示，该方法能有效提升检索性能，但其在通用场景下的泛化能力尚无法从摘要确认。这一工作为优化智能体驱动的复杂检索任务提供了新的技术路径。

摘要

本文介绍了 AgentIR，一种专为深度研究智能体设计的“感知推理的检索”框架。

背景与问题 随着深度研究智能体成为现代检索系统的主要用户，现有的检索技术存在显著局限。人类用户通常只提交查询词而不展示思考过程，但智能体在每次搜索前都会生成显式的自然语言推理步骤。这些推理步骤包含了丰富的意图和上下文信息，而现有的检索器完全忽略了这些宝贵信号。

解决方案 为了利用这一被忽视的信号，作者提出了两个核心创新：

感知推理的检索：一种新的检索范式，它不再仅依赖查询词，而是将智能体的推理轨迹与查询词共同嵌入，从而更准确地理解搜索意图。
DR-Synth：一种数据合成方法，能够从标准的问答（QA）数据集中生成专门用于训练深度研究检索器的数据。

实验结果与性能 实验表明，这两个组件各自有效，且结合使用效果更佳。由此训练出的嵌入模型 AgentIR-4B 表现优异：

在极具挑战性的 BrowseComp-Plus 基准测试中，AgentIR-4B 与开源智能体 Tongyi-DeepResearch 配合，达到了 68% 的准确率。
这一成绩显著优于传统方法：比体积是其两倍的传统嵌入模型（50%）高出许多，更是远超 BM25 方法（37%）。

代码和数据已公开。

以下是对论文《AgentIR: Reasoning-Aware Retrieval for Deep Research Agents》的深度学术评价。本文基于您提供的摘要信息，结合当前信息检索（IR）与智能体领域的最新进展，从七个维度进行剖析。

论文深度评价：AgentIR

1. 研究创新性：从“查询匹配”到“思维链检索”的范式转移

论文声称：现有检索器仅关注最终查询词，忽略了智能体在生成查询前产生的显式推理轨迹。AgentIR提出了一种“感知推理的检索”范式，将推理步骤与查询联合嵌入。
证据：作者指出人类用户仅提交关键词，而智能体（如基于CoT的Agent）会生成中间步骤。AgentIR利用这些富含上下文的推理链来优化检索表示。
学术推断：该研究具有显著的范式创新性。
- 从“点”到“链”的维度提升：传统IR处理的是孤立的查询点，而AgentIR处理的是包含意图演化过程的“链”。这实际上是将IR的前端从“静态查询”升级为“动态推理上下文”。
- 信号解耦：创新点在于不仅利用了$Query$，还显式建模了$Reasoning \ Traces$。在技术上，这可能涉及将推理步骤作为辅助句子或前缀指令引入编码器，类似于“上下文查询扩展”的进阶版，但其上下文是Agent的内部思维而非外部文档。

2. 理论贡献：对“查询意图理解”理论的深化

论文声称：推理轨迹包含了丰富的意图和上下文信息，是现有检索器完全忽略的宝贵信号。
推断：该工作在理论上补充了神经认知过程与信息检索系统的接口理论。
- 它暗示了在Agent-as-a-User的场景下，查询意图不再是隐含的，而是显式表达的。传统的“查询歧义性”问题可以通过利用Agent的推理链得到部分解决。
- 理论突破在于提出了检索信号的结构化增强：即检索的相关性不仅取决于语义相似度（$Sim(q, d)$），还取决于推理路径与文档逻辑的一致性。

3. 实验验证：评估指标与场景的适配性

关键假设：包含推理轨迹的检索输入能比单纯的查询词产生更高精度的检索结果。
可能的失效条件：
1. 推理噪声：如果Agent产生的推理步骤包含幻觉或逻辑错误，错误的上下文可能会误导检索器，导致性能下降（即“负向迁移”）。
2. 检索器容量限制：现有的稠密检索模型（如BERT-based）通常有512 Token的长度限制。推理链可能过长，截断后可能丢失关键信息，甚至不如短查询精准。
可验证的检验方式：
- 消融实验：必须验证“推理轨迹”的独立贡献。应对比 $Input=Query$ vs $Input=Query+Reasoning$ 的性能差异。
- 鲁棒性测试：在推理链包含不同比例的错误信息时，检索性能的衰减曲线。
- 长度敏感性分析：测试推理链长度对检索延迟和精度的影响。

4. 应用前景：RAG与垂直领域搜索的基石

推断：AgentIR具有极高的应用价值，特别是在复杂问答和深度文献综述领域。
- RAG系统的升级：当前的RAG系统大多直接将用户问题扔给检索器。AgentIR架构意味着RAG系统需要升级为“思考-检索-再思考”的闭环。
- 垂直领域Agent：在法律或医疗咨询Agent中，推理过程往往是严谨的演绎逻辑。利用这种逻辑去检索法条或病历，能大幅提高结果的可解释性和准确性。

5. 可复现性与技术细节

论文声称：提出了DR-Synth（摘要截断，推测为数据合成策略）和新的检索框架。
评价：
- 清晰度：如果论文详细描述了如何将推理轨迹与Query进行文本拼接或特征融合，则复现性较高。
- 数据依赖：该方法可能依赖于特定类型的Agent（如思维链CoT Agent）。如果未公开生成这些推理轨迹的Prompt或Agent配置，复现“推理轨迹”这一核心输入将非常困难。
- 潜在风险：如果“感知推理”仅仅是简单的文本拼接，那么其复现门槛较低；但如果是涉及复杂的注意力机制掩码或特定的对比学习损失，则需要公开源代码。

6. 相关工作对比

对比传统IR：传统方法（如BM25, DPR）无法感知查询背后的逻辑，只能进行字面或语义匹配。AgentIR在处理复杂查询时具有压倒性优势。
对比查询扩展：传统QE（如伪相关性反馈）依赖于初始检索结果的外部反馈，容易产生“漂移”。AgentIR依赖于Agent的内部逻辑反馈，这种反馈是自包含的，不依赖外部文档库，因此更稳定且更具针对性。
对比近期工作（如Self-RAG, Reflexion）：这些方法主要关注如何利用检索结果来修正生成，而AgentIR关注的是如何利用生成过程来优化检索。这是一个互补且反向的视角。

7. 局限性与未来方向

技术分析

以下是对论文 AgentIR: Reasoning-Aware Retrieval for Deep Research Agents 的深入分析报告。

AgentIR: 深度研究智能体的感知推理检索——深度分析报告

1. 研究背景与问题

核心问题

本研究旨在解决深度研究智能体在执行长链条、多步骤的复杂信息检索任务时，现有的检索模型无法有效利用智能体产生的“中间推理过程”这一核心问题。现有的检索系统（如BM25或标准嵌入模型）通常是为人类用户设计的，仅处理最终的查询词，而忽略了智能体在生成查询词之前的显式思维过程。

背景与意义

随着大语言模型（LLM）的发展，检索增强生成（RAG）和自主智能体技术日益成熟。现代的“深度研究”任务（如撰写行业分析报告、学术综述）不再满足于单一事实的问答，而是需要多轮迭代、多源验证的深度信息挖掘。

用户主体变更：检索系统的使用者从“人类”转变为“AI智能体”。
数据形态变更：输入不再仅仅是简短的关键词，而是包含丰富上下文的自然语言推理轨迹。
意义：如果检索系统能够理解并利用智能体的推理过程，将极大提升信息获取的精准度，从而突破当前AI在处理复杂、开放式研究任务时的天花板。

现有方法的局限性

信息丢失：传统检索器（如Dense Passage Retrieval, DPR）仅将Query编码为向量，完全丢弃了智能体在生成Query之前产生的“思维链”或“推理步骤”。
语义鸿沟：智能体生成的Query往往是高度概括或隐晦的（例如：“查一下这个”），如果没有推理上下文，检索器很难理解其真实意图。
训练数据匮乏：现有的检索训练数据（如MS MARCO）主要基于人类查询，缺乏“推理+查询+文档”这种针对智能体场景的标注数据。

为什么重要

这是检索范式的一次重要转移。如果说RAG解决了LLM的“知识时效性”问题，AgentIR则试图解决智能体的“上下文理解深度”问题。它是连接“推理能力”与“检索能力”的关键桥梁，对于构建下一代具备专家级研究能力的AI系统至关重要。

2. 核心方法与创新

核心方法概述

AgentIR 框架包含两个紧密耦合的组件：

感知推理的检索：一种新的检索输入格式和训练目标，要求模型同时处理智能体的推理轨迹和查询词。
DR-Synth (Deep Research Synthesis)：一种数据增强方法，能够利用现有的静态问答数据集，自动合成出模拟智能体研究过程的训练数据。

技术创新点与贡献

输入重构：作者没有简单地拼接文本，而是设计了特定的Prompt模板，将 Query 和 Reasoning 作为不同的输入段喂给检索模型。这使得模型能够学习推理步骤与查询意图之间的对齐关系。
数据合成：这是极具工程价值的一点。由于缺乏真实的智能体检索轨迹数据，作者提出利用强LLM（如GPT-4）反向“幻想”出能够导向特定答案的推理路径，从而低成本构建高质量的训练集。
端到端优化：证明了通过合成数据训练的模型，能够泛化到真实的智能体工作流中。

方法的优势

即插即用：AgentIR 训练出的模型可以作为标准检索器（如替换掉LangChain或LlamaIndex中的Vector Store索引），无需大幅改动智能体架构。
鲁棒性：实验表明，即使在推理步骤包含噪声或部分错误的情况下，结合推理的检索依然比仅使用Query更稳健。

3. 理论基础

理论假设

本研究的核心理论假设是：“查询意图”不仅存在于查询词本身，更隐含在产生该查询词的上下文推理路径中。 即 $P(Doc|Query, Context) > P(Doc|Query)$，其中 Context 即为推理轨迹。

数学模型与算法设计

在算法层面，AgentIR 基于标准的双编码器架构。

编码器：使用基于Transformer的模型（如BGE或E5）作为骨干。
输入表示： $$ Embedding = f_{\theta}([CLS] \text{Reasoning} [SEP] \text{Query} [SEP]) $$ 模型通过对比学习损失函数进行优化，拉近正样本文档与的距离，推远负样本。
DR-Synth算法：
1. 给定一个QA对 $(Q, A)$。
2. 要求LLM生成一个推理过程 $R$，解释为什么要搜索 $Q$ 来回答 $A$。
3. 构造训练样本 $(R, Q, A)$。

理论分析

该方法从信息论的角度看，实际上是增加了输入信道 $I$ 的互信息。推理轨迹 $R$ 提供了额外的先验信息，有助于消除查询词 $Q$ 中的歧义。例如，当 $Q$ 为“苹果”时，$R$ 中若包含“口感、价格、产地”，则检索模型能更准确地聚焦于“水果”而非“科技公司”。

7. 学习建议

适合人群

从事搜索引擎、RAG系统开发的工程师。
研究大语言模型智能体方向的研究生。
对信息检索（IR）理论感兴趣的研究者。

前置知识

基础：Transformer架构，BERT/GPT模型原理。
核心：信息检索评价指标，双编码器模型，对比学习。
进阶：Agent工作流（如ReAct模式），思维链技术。

阅读顺序

先阅读论文的 Introduction 和 Figure 1，理解“传统检索”与“AgentIR”的区别。
重点阅读 Method 部分的 DR-Synth，这是理解数据如何产生的关键。
查看 Experiments 中的 Case Study，直观感受推理轨迹如何帮助消歧。
最后阅读 Related Work，了解其与其他Agent检索方法的异同。

研究最佳实践

实践 1：构建显式的推理-检索交互循环

说明: 传统的检索增强生成（RAG）通常采用线性流程，而 AgentIR 强调在检索过程中嵌入显式的推理步骤。这意味着 Agent 不应仅仅基于当前查询生成检索查询，而应利用其当前的推理轨迹（思维链）来动态地指导检索行为，确保获取的信息与当前的逻辑上下文高度相关。

实施步骤:

设计 Agent 架构时，确保检索模块可以接收并解析 Agent 的中间推理状态。
在执行检索前，强制 Agent 生成“检索前推理”，明确当前缺失的信息是什么。
将检索到的信息反馈给推理模块，验证其是否解决了逻辑缺口，若未解决则触发新一轮推理。

注意事项: 避免将检索视为独立的黑盒模块，必须建立推理状态与检索查询之间的语义映射。

实践 2：实施迭代式自我反思与检索优化

说明: AgentIR 的核心在于能够识别检索结果的质量。如果检索到的文档不足以支持推理或存在冲突，Agent 需要具备自我反思的能力，重新生成检索查询或调整检索策略，而不是强行使用低质量数据生成最终答案。

实施步骤:

在检索后增加一个“评估”步骤，让 Agent 判断当前信息是否充分。
设定阈值或评分机制，当信息置信度低于标准时，触发“重检索”指令。
利用前一次检索失败的经验，重写查询语句（例如：增加关键词、改变语义范围）。

注意事项: 防止无限循环，应设置最大迭代次数（例如 3-5 次），以避免在无法找到的信息上浪费计算资源。

实践 3：建立多跳推理的实体链接机制

说明: 深度研究往往涉及跨越多个文档的逻辑推理。AgentIR 需要能够识别不同文档中的实体（如人名、地点、特定术语）并将它们链接起来，形成知识图谱或逻辑链条，以支持复杂的问答。

实施步骤:

使用实体识别（NER）工具从检索片段中提取关键实体。
在 Agent 的上下文窗口中维护一个动态的实体表，记录实体间的关系。
当推理链条断裂时，利用已知实体作为锚点进行针对性检索，以填补逻辑空白。

注意事项: 实体消歧至关重要，需确保不同文档中出现的同名实体指的是同一个对象，避免引入噪声。

实践 4：采用分解-聚合策略处理复杂查询

说明: 面对复杂的深度研究问题，单次检索往往无法覆盖所有方面。最佳实践是将复杂的用户查询分解为多个子问题，分别进行检索和推理，最后将所有子结果聚合生成最终答案。

实施步骤:

设计查询规划器，将大问题拆解为逻辑上互斥或互补的子任务。
为每个子任务分配独立的检索和推理链。
在最终生成阶段，设计综合模块，负责整合各子任务的发现，解决子任务之间的冲突。

注意事项: 子问题的分解不应过于琐碎，以免导致上下文碎片化，增加后续聚合的难度。

实践 5：引入动态上下文压缩与长窗口管理

说明: 随着研究深度的增加，Agent 积累的上下文会急剧膨胀。AgentIR 需要具备动态压缩上下文的能力，保留关键推理证据和实体关系，丢弃冗余信息，以维持推理的准确性和效率。

实施步骤:

在每轮推理结束后，提取核心的“结论-证据”对。
将详细的检索文本摘要化，仅保留与当前推理路径直接相关的引用。
定期评估上下文窗口的使用率，当接近限制时，优先保留最近和置信度最高的信息。

注意事项: 压缩过程中必须保留原始信息的引用来源，以便在需要验证时进行回溯。

实践 6：设计可解释的检索轨迹

说明: 为了确保 Agent 的研究过程可信，系统不仅要输出最终答案，还应输出完整的检索和推理轨迹。这使得用户可以理解 Agent 是如何通过一步步检索和推理得出结论的。

实施步骤:

记录每一次检索的触发点（即哪一步推理导致了这次检索）。
在展示结果时，清晰地标注出哪些段落来源于哪个检索到的文档。
可视化推理链路，展示从问题到子问题，再到检索证据，最后到结论的路径。

注意事项: 保护用户隐私，在记录轨迹时避免泄露敏感的检索元数据或内部系统提示词。

学习要点

AgentIR 提出了一种推理感知的检索框架，通过将复杂查询分解为原子化事实并生成推理链，显著提升了深度研究场景下的检索准确率。
该方法创新性地利用 Agent 的思维链作为检索信号，使检索器能够理解查询背后的逻辑意图，而非仅进行语义匹配。
引入了“原子事实”的概念，将长文本或复杂问题拆解为最小信息单元，从而有效解决了传统检索方法在处理多跳推理时的局限性。
构建了 AgentInstruct 数据集，通过自动化的推理链生成和高质量反馈机制，为训练具备深度研究能力的 Agent 提供了数据基础。
AgentIR 实现了检索与生成过程的紧密耦合，验证了显式建模推理过程对于提升大型语言模型在专业领域研究性能的必要性。

学习路径

阶段 1：基础理论与技术铺垫

学习内容:

大语言模型（LLM）的基本原理与Transformer架构
检索增强生成（RAG）的标准流程与局限性
向量数据库与语义检索基础
智能体的基本定义与ReAct框架
LangChain或LlamaIndex等框架的基础API使用

学习时间: 2-3周

学习资源:

论文: “Attention Is All You Need” (Transformer基础)
博客: Lil’Log 系列关于RAG的介绍
课程: 吴恩达的《LangChain for LLM Application Development》
文档: LangChain或LlamaIndex官方入门文档

学习建议: 此阶段重点在于理解为什么单纯的RAG无法处理复杂的深度研究任务。建议动手实现一个基础的RAG聊天机器人，体验其在处理多跳推理问题时的失败案例，从而引出对Agent和推理机制的需求。

阶段 2：推理机制与Agent架构

学习内容:

思维链与复杂推理提示词工程
Agent规划与记忆机制
迭代检索与推理循环
深度研究场景下的任务拆解
工具使用与函数调用

学习时间: 3-4周

学习资源:

论文: “ReAct: Synergizing Reasoning and Acting in Language Models”
论文: “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”
开源项目: AutoGPT或BabyAGI的源码分析
课程: DeepLearning.AI关于Agent的短期课程

学习建议: 重点理解Agent如何通过"观察-思考-行动"的循环来解决问题。尝试手动编写Prompt，引导模型进行多轮检索和推理，而不是一次性生成答案。理解推理过程如何指导检索策略的优化。

阶段 3：AgentIR 核心思想与实现

学习内容:

精读《AgentIR: Reasoning-Aware Retrieval for Deep Research Agents》论文
理解"推理感知检索"的概念：如何利用推理轨迹来优化检索查询
深度研究Agent的数据流与架构设计
评估指标：如何衡量深度研究的效果（如DeepResearch Benchmarks）
对比AgentIR与传统RAG及普通Agent的差异

学习时间: 2-3周

学习资源:

论文原文: AgentIR arxiv链接
相关代码库: 如果论文有开源GitHub，进行Clone研读
视频: 寻找作者相关的讲解视频或研讨会录像

学习建议: 在此阶段，你需要将目光聚焦在AgentIR的核心创新点上。画出论文中的系统架构图，并尝试复现其中的关键模块。重点关注它如何将非结构化的推理步骤转化为结构化的检索需求。

阶段 4：系统优化与高级应用

学习内容:

检索结果的去重与排序
处理长上下文与信息过载
多模态检索在Agent中的应用
部署与性能优化
构建自定义的深度研究Agent原型

学习时间: 4-6周

学习资源:

论文: “Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection”
框架高级文档: LangGraph或CrewAI的复杂流程控制
工具: LlamaIndex的Advanced Retrieval模式
数据集: HotpotQA或MuSiQue等多跳推理数据集

学习建议: 这是从理论走向实践的关键阶段。建议基于AgentIR的思想，使用现有的开源框架搭建一个能够完成特定领域（如法律或学术）深度调研的Demo。重点解决检索准确率和推理连贯性的平衡问题。

常见问题

AgentIR 主要解决传统检索增强生成（RAG）技术中的哪些痛点？

传统的 RAG 系统通常采用“一刀切”的检索策略，即无论查询的复杂程度如何，都使用相同的检索模型和参数。AgentIR 主要解决了以下三个核心痛点：

静态检索的局限性：传统方法无法根据 Agent 当前推理阶段的需求动态调整检索策略（例如，在初期探索阶段需要广泛召回，而在验证阶段需要精准匹配）。
多跳推理的断裂：在处理深度研究任务时，往往需要跨越多个文档进行逻辑推理。传统检索往往只关注查询与单个文档的语义相似度，而忽略了文档之间在逻辑链条上的关联性。
缺乏上下文感知：AgentIR 引入了“推理感知”机制，能够根据 Agent 当前的思维链状态来优化检索查询，从而获取更高质量的信息片段。

AgentIR 的核心架构是如何工作的？它与标准的 RAG 流程有何不同？

AgentIR 的核心在于它将“推理”与“检索”紧密耦合，而不是将其视为两个独立的步骤。其工作流程通常包含以下关键组件：

推理状态追踪：系统会实时监控 Agent 的当前目标、已收集的证据以及缺失的信息。
动态查询生成：基于当前的推理状态，系统会自动重写或扩展查询。例如，如果 Agent 正在验证一个假设，查询会被调整为寻找支持或反驳该假设的确凿证据，而不仅仅是关键词匹配。
多粒度检索索引：AgentIR 可能会利用不同粒度的索引（如文档块级、句子级或知识图谱级），根据推理深度选择最合适的信息源。相比之下，标准 RAG 通常是“查询 -> 检索 -> 生成”的线性流程，缺乏这种动态反馈和调整机制。

AgentIR 如何处理深度研究中的“多跳推理”问题？

在深度研究中，答案往往不能直接从单一文档中找到，需要将分散在不同文档中的信息片段（实体、关系、事件）串联起来。AgentIR 通过以下方式处理多跳推理：

链式检索：AgentIR 会将上一步检索到的结果作为上下文，用于生成下一步的检索查询。这意味着检索是一个迭代的过程，每一步都基于前一步的发现进行深化。
实体与关系链接：系统可能会识别文本中的关键实体，并利用知识图谱或实体链接技术，显式地检索与这些实体相关的其他文档，从而构建出完整的逻辑链条。
证据聚合：在检索过程中，AgentIR 会评估不同来源证据的一致性和互补性，确保推理链条的连贯性。

在 AgentIR 框架中，“Reasoning-Aware”（推理感知）具体体现在哪些技术细节上？

“推理感知”是 AgentIR 的灵魂，具体体现在技术实现的几个方面：

查询重写：利用大语言模型（LLM）的能力，根据 Agent 当前的思维链对原始查询进行重写。例如，将模糊的问题转化为具体的检索指令，或者添加必要的约束条件。
检索时机判断：Agent 会学习何时需要检索信息。如果当前上下文信息足以进行推理，AgentIR 可能会跳过检索步骤以减少延迟和噪声；只有在遇到知识盲区时才会触发检索。
结果排序与过滤：检索到的文档不仅仅是基于语义相似度排序，还会根据其对当前推理步骤的“效用”进行重新排序。例如，包含数据支撑的文档在“验证”阶段会被赋予更高的权重。

使用 AgentIR 构建研究 Agent 时，对数据源和索引有什么特殊要求？

为了充分发挥 AgentIR 的性能，对数据准备阶段有较高的要求：

高质量的文本切分：由于 AgentIR 依赖逻辑推理，文档的切分需要保持语义完整性，避免将相关的逻辑段落切断。这可能需要使用基于语义或结构的切分方法，而不是简单的固定长度切分。
元数据丰富度：索引中应包含丰富的元数据（如作者、发布日期、文件类型、章节标题等），这有助于 Agent 在推理过程中进行过滤（例如，只检索近期的权威来源）。
结构化数据支持：虽然 AgentIR 主要处理非结构化文本，但如果能结合结构化数据（如表格、知识图谱），将极大地提升多跳推理的准确性。

AgentIR 相比于单纯的 Long Context LLM（长上下文大模型）有什么优势？

虽然 Long Context LLM（如支持 128k 或 1M token 的模型）可以直接将大量资料填入上下文窗口，但 AgentIR 仍然具有不可替代的优势：

成本与效率：将海量数据填入提示词并让模型处理极其昂贵且缓慢。AgentIR 通过精准检索，只在必要时调用相关文档，显著降低了 Token 消耗和推理延迟。

引用

ArXiv: http://arxiv.org/abs/2603.04384v1
PDF: https://arxiv.org/pdf/2603.04384v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 论文
标签： AgentIR / RAG / 深度研究 / 检索增强 / 推理感知 / 嵌入模型 / DR-Synth / BrowseComp
场景： RAG应用

AgentIR：面向深度研究智能体的推理感知检索