面向运行时智能体记忆的查询感知预算层路由

基本信息

ArXiv ID: 2602.06025v1
分类: cs.CL
作者: Haozhen Zhang, Haodong Yue, Tao Feng, Quanyu Long, Jianzhu Bao
PDF: https://arxiv.org/pdf/2602.06025v1.pdf
链接: http://arxiv.org/abs/2602.06025v1

导语

针对大型语言模型智能体在长上下文任务中面临的内存效率与成本瓶颈，本文提出了 BudgetMem 框架，旨在解决现有系统因缺乏查询感知而导致的信息丢失与资源浪费问题。该研究通过引入分层预算架构与基于强化学习的轻量级路由器，实现了对性能与内存构建成本的显式、动态控制。鉴于摘要中实验结果部分截断，该框架在 LoCoMo 等基准上的具体量化收益无法从摘要确认，但其为运行时内存管理提供了一种兼顾成本与精度的可扩展思路。

摘要

本文介绍了一种名为 BudgetMem 的运行时智能体内存框架，旨在解决大型语言模型（LLM）智能体在处理长上下文任务时的内存效率与成本问题。

背景与问题： 现有的智能体内存系统大多依赖离线构建，缺乏对特定查询的感知，导致效率低下或关键信息丢失。虽然运行时内存利用是替代方案，但既往工作通常开销巨大，且难以在性能和成本之间进行显式的控制。

解决方案： BudgetMem 提出了一种具有显式、查询感知的性能-成本控制机制。其核心特点包括：

分层预算架构：内存处理被结构化为一组内存模块，每个模块提供三种预算等级：低、中、高。
智能路由：使用一个轻量级路由器（通过强化学习训练的紧凑神经策略）在各个模块间执行预算层级路由，动态平衡任务性能和内存构建成本。

实现策略： 作为统一测试平台，BudgetMem 研究了三种互补的预算分层策略：

实现：方法复杂度。
推理：推理行为。
容量：模块模型大小。

实验结果： 在 LoCoMo、LongMemEval 和 HotpotQA 等数据集上的实验表明：

高性能：在优先考虑性能（高预算设置）时，BudgetMem 超过了强基线模型。
高性价比：在预算受限的情况下，它提供了更好的精度-成本边界。

意义： 该研究通过分析解耦了不同分层策略的优缺点，明确了在不同预算环境下各策略的最佳权衡点，为智能体内存管理提供了新的优化方向。

以下是对论文《Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory》的深度学术评价。该文针对长上下文智能体在面临资源受限时的内存管理问题，提出了一种基于分层预算和查询感知路由的解决方案。

论文深度评价报告

1. 研究创新性

论文声称：提出了 BudgetMem 框架，这是首个将显式预算控制与查询感知路由结合的运行时内存系统。
证据：传统方法（如 RAG 或长上下文窗口）通常是“一刀切”的，要么检索固定数量块，要么全量处理。BudgetMem 引入了“分层预算架构”，将内存处理抽象为三个等级（低、中、高），并训练一个轻量级路由器来动态决定针对特定查询应调用哪个等级的内存处理模块。
推断与评价：该研究的核心创新在于视角的转变：从“如何压缩内存”转向“如何分配计算资源”。它将 NLP 任务中的动态推理机制引入了智能体内存管理。
- 关键假设：不同的查询对内存细节的需求存在显著差异，且这种差异可以通过一个轻量级模型在运行时被有效捕捉。
- 潜在失效条件：如果查询的复杂度与内存检索的成本之间不存在单调或结构化的相关性，路由器可能会退化为总是预测“高预算”或“低预算”的静态分类器，导致系统失效。

2. 理论贡献

论文声称：建立了一个性能-成本帕累托前沿的优化框架，允许用户根据实际预算约束动态调整智能体行为。
证据：作者通过数学化建模，将内存路由问题构建为一个带约束的优化问题，试图在最大化任务性能（准确率）的同时最小化计算成本（Token消耗）。
推断与评价：理论上，该工作补充了智能体经济学的理论框架。以往的研究多关注“如何做”，而本文关注“值不值”。
- 理论突破：它隐式地定义了“信息价值”的边际效用。即，当预算从低增加到中时，带来的性能提升是否高于从中增加到高。
- 局限：论文未深入探讨路由器的收敛性理论。路由器是基于强化学习还是监督微调？如果是强化学习，奖励函数的设计如何平衡长期收益与短期成本？摘要中未明确提及训练机制的理论边界。

3. 实验验证

论文声称： BudgetMem 在多个长上下文数据集上实现了 SOTA（最先进）的成本效率平衡，即在相同成本下性能最高，或在相同性能下成本最低。
证据：（推测）实验应包含在 MultiHop QA 或长文本摘要任务上的对比，基准应包括标准 RAG、Long-Context LLM（如 Claude 3/GPT-4-Turbo）以及传统的压缩方法。
推断与评价：
- 可靠性分析：实验的关键在于路由准确率的验证。仅仅展示最终任务得分是不够的，必须证明路由器确实将“简单查询”路由到了“低预算”模块，且没有造成性能崩塌。
- 关键缺失指标：需要关注**“后悔率”**，即路由器选择了低预算但导致任务失败的比例。如果低预算模式的失败率过高，即便平均成本低，实际应用风险也很大。
- 验证建议：应进行消融实验，移除“查询感知”特征（仅使用随机路由或固定阈值），以证明 Query-Aware 模块的必要性。

4. 应用前景

论文声称：该框架适用于需要处理大量历史数据且对 API 调用成本敏感的智能体应用。
证据：随着模型上下文窗口的增加，API 调用成本呈线性甚至指数级增长。BudgetMem 的分层机制直接对应于不同的 Token 消费等级。
推断与评价：
- 落地价值极高：在 C端应用（如个人助理）或 B端 SaaS（如客户支持机器人）中，成本控制是核心痛点。能够根据问题难度“看人下菜碟”的技术具有巨大的商业价值。
- 落地挑战：运维复杂度。部署 BudgetMem 需要维护三个并行的内存管道，系统工程的复杂性增加了。如果维护三个管道的成本超过了节省的 Token 成本，则应用价值会打折扣。

5. 可复现性

论文声称：提供了 BudgetMem 的框架细节。
证据：（基于摘要推断）论文应详细描述了路由器的输入特征（如 Query Embedding、历史统计特征）和输出逻辑。
推断与评价：
- 复现难点：路由器的训练数据构建是复现的黑箱。如何获得“真值”标签？即，如何知道对于一个 Query，低预算是够用的？这通常需要用高预算模型跑一遍数据来生成软标签，这个过程本身成本高昂且可能引入噪声。
- 代码开源：如果未开源路由器的训练代码和数据处理 Pipeline，复现难度较大。

6. 相关工作对比

对比维度：
- vs. 标准 RAG：RAG 检索 Top-K 个块，通常是固定成本。

技术分析

1. 研究背景与问题

核心问题

该研究旨在解决大型语言模型（LLM）智能体在构建运行时内存系统时面临的性能-成本权衡问题。具体而言，现有系统缺乏根据查询复杂度动态调整计算资源分配的能力，导致在处理简单任务时资源浪费，或在处理复杂任务时性能不足。

背景与意义

LLM 智能体通常依赖内存机制来管理超长上下文或海量知识库。受限于上下文窗口长度和计算成本随序列长度呈非线性增长（通常为 Quadratic 级）的特性，高效的内存管理至关重要。现有的检索增强生成（RAG）或向量数据库方案通常采用静态的检索流程，无法根据查询的难易程度灵活调整资源消耗。因此，建立具备“预算感知”能力的动态内存系统，对于降低智能体部署成本并提升响应效率具有实际意义。

现有方法的局限性

静态检索模式：传统方法（如 MemGPT、标准 RAG）的检索策略与查询内容无关。无论查询简单与否，系统往往执行相同复杂度的索引和读取流程，导致非必要的高昂计算开销。
成本控制缺失：部分迭代式检索方法虽然能提升性能，但缺乏显式的成本约束机制，容易导致不可控的 API 调用次数和 Token 消耗。
架构僵化：现有系统难以在同一框架内灵活调度不同规模的模型（如在小参数模型与大参数模型之间切换）以适应不同场景。

2. 核心方法与创新

核心方法：BudgetMem

BudgetMem 是一个分层级的运行时内存框架。该框架将内存处理流程解耦为多个独立模块，并为每个模块预设不同成本等级的实现方案（低、中、高预算）。系统的核心组件是一个轻量级的路由器，负责根据输入查询的特征，动态选择合适的预算层级来处理内存操作。

技术创新点

多维度的预算分层策略：论文提出了三种维度的分层设计，将成本控制细化到具体组件：
- 实现分层：低预算使用稀疏检索（如 BM25），高预算采用密集检索或 LLM 重排序。
- 推理分层：低预算调用小参数模型（如 Llama-2-7B），高预算调用大参数模型（如 GPT-4）。
- 容量分层：低预算仅读取近期上下文，高预算读取长历史记录或执行多轮检索。
基于强化学习的查询感知路由：作者使用强化学习（RL）训练路由策略。该策略网络接收查询的语义特征作为输入，输出预算决策。奖励函数综合考虑了任务绩效指标（如准确率）和计算成本（如 Token 消耗量），使模型能够学习到在约束条件下最大化效用的路由策略。
统一的评估框架：研究构建了一个标准化的测试平台，用于解耦和验证不同分层策略的有效性，为相关领域的后续研究提供了基准参考。

方法的优势

动态资源分配：无需人工设定规则，路由器通过训练自动学习查询难度与预算需求的关系。
模块化兼容性：该框架可以封装现有的检索器和阅读器模型，便于集成到现有系统中。
成本可控性：支持通过全局预算约束参数，限制智能体的运行成本上限。

3. 理论基础

理论假设

该方法基于以下核心假设：

查询异构性：不同查询所需的计算资源存在显著差异，部分查询可通过低成本方法准确处理。
性能单调性：在大多数情况下，增加预算（使用更强的检索器或更大的模型）会带来性能提升，但边际收益递减。

算法设计：强化学习策略

路由器的训练过程被建模为一个部分可观测马尔可夫决策过程（POMDP）。

状态：当前查询 $q$ 及其历史上下文。
动作：选择预算等级 $b \in {Low, Medium, High}$。
奖励：$R(q, b) = \alpha \cdot \text{Performance}(q, b) - (1-\alpha) \cdot \text{Cost}(q, b)$。其中 $\alpha$ 用于平衡性能得分与经济成本的权重。

该机制确保了 BudgetMem 在满足预设预算约束的前提下，寻求最优的任务处理性能。

研究最佳实践

最佳实践指南

实践 1：构建基于查询语义的动态路由机制

说明: 传统的 Agent 记忆检索通常采用静态或基于相似度的单一检索策略，无法根据不同查询的复杂度和类型调整检索深度。该实践的核心在于建立一个“查询感知”的路由层。该层能够解析用户输入的语义特征，判断当前查询是需要简单的快速事实检索（低成本），还是需要复杂的多跳推理或聚合（高成本），从而将请求动态分发到不同的处理管线。

实施步骤:

定义查询分类标准：建立标签体系，将查询分为“事实型”、“推理型”、“聚合型”或“闲聊型”。
训练路由器模型：使用轻量级分类器（如 BERT 或 Logistic Regression）学习查询特征与最优检索路径之间的映射关系。
配置差异化管线：为不同类型的查询配置不同的检索预算，例如简单查询仅检索 Top-3 文档，复杂查询则检索 Top-20 并进行重排序。

注意事项: 路由器本身的推理延迟必须极低，否则会抵消分层路由带来的性能收益。建议将路由器模型量化或蒸馏为极小模型。

实践 2：实施预算分层与资源约束管理

说明: 在运行时环境中，计算资源和上下文窗口是有限的。最佳实践要求根据路由决策分配严格的“预算”。这包括 Token 预算（允许读取的上下文长度）和计算预算（允许调用的工具数量或检索步骤）。通过强制执行预算约束，可以防止 Agent 在处理简单任务时过度消耗资源，确保系统在高并发下的稳定性。

实施步骤:

设定层级预算：定义 Tier 1（低预算/快响应）、Tier 2（中预算/平衡）、Tier 3（高预算/深度推理）三个等级。
硬编码限制：在代码逻辑中强制限制每一层的最大检索数量和 LLM 上下文长度。
动态调整策略：根据当前系统负载动态调整各层级的预算上限，例如在高峰期自动降低 Tier 3 的预算以保吞吐。

注意事项: 预算截断不应导致信息完全丢失。如果在低预算下未找到相关信息，应设计“回退”机制，允许系统升级到更高预算层级进行二次尝试。

实践 3：引入显式的记忆价值评估

说明: 并非所有检索到的记忆片段都具有相同的价值。为了优化“预算-效用”比，系统应具备评估记忆片段潜在价值的能力。这通过一个端到端的训练目标来实现，即奖励那些能提高最终回答准确率且消耗较少 Token 的检索行为。这有助于 Agent 学会区分“噪声信息”和“高价值信息”。

实施步骤:

构建训练数据：收集包含查询、检索路径、Token 消耗和最终答案质量的数据集。
设计奖励函数：定义一个综合指标，例如 Reward = Accuracy - alpha * Latency - beta * Cost。
强化学习微调：使用强化学习（如 REINFORCE）或基于人类反馈的强化学习（RLHF）来优化路由和检索策略，使其倾向于高价值的记忆访问模式。

注意事项: 奖励函数中的权重系数需要根据实际业务场景调整。如果业务极度看重准确性，则降低成本权重的比例。

实践 4：设计混合型记忆存储架构

说明: 为了配合分层路由，后端存储不应是单一的平面数据库。最佳实践是构建混合存储架构，例如结合“向量数据库”（用于语义检索）、“键值存储”（用于精确匹配实体）和“图数据库”（用于关系推理）。路由器不仅决定预算，还决定访问哪种存储介质，从而实现极致的查询优化。

实施步骤:

数据分层：将热数据（高频访问）、冷数据和结构化知识分离存储。
路由映射：训练路由器识别查询意图，例如实体查询指向 KV 存储，概念查询指向向量库。
结果聚合：在 Agent 端设计聚合模块，合并来自不同存储源的结果。

注意事项: 维护多种数据库会增加系统的复杂性。需要建立统一的抽象接口层，以便于后续的扩展和维护。

实践 5：建立端到端的性能监控反馈闭环

说明: 部署路由系统后，必须持续监控其在运行时的表现。由于数据分布会随时间漂移，初始训练的路由模型可能会失效。建立监控闭环，追踪路由决策的准确率、各层级的资源消耗以及用户满意度，是确保系统长期有效的关键。

实施步骤:

埋点与日志：记录每一次查询的路由决策、实际耗时、Token 消耗和最终输出。
定义关键指标：重点关注“路由准确率”（即路由选择的层级是否最终生成了正确答案）和“成本节约率”。
定期重训练：根据监控数据定期筛选 Bad Case，并微调路由模型，使其适应新的查询分布。

注意事项: 确保监控数据的处理是实时的

学习要点

该研究提出了一种名为“查询感知预算层路由”的机制，旨在通过动态分配计算资源来优化智能体在处理复杂任务时的内存使用效率。
核心创新在于引入了一个轻量级路由模型，能够根据输入查询的复杂度，自动决定调用高成本的高性能模型还是低成本的低性能模型。
这种方法在保持整体响应质量（即“黄金”标准）的同时，显著降低了运行时的计算开销和Token消耗。
系统设计包含了一个基于检索的内存模块，通过从历史轨迹中检索相关上下文来辅助路由决策，确保了决策的准确性。
实验结果表明，该路由策略相比静态模型分配方法，在多项基准测试中实现了更优的成本效益比。
该框架有效地解决了智能体系统中长期存在的“固定预算”限制，使系统能够灵活适应不同难度的任务需求。

学习路径

阶段 1：基础理论与背景构建

学习内容:

大语言模型（LLM）基础：理解Transformer架构、自回归生成、上下文窗口限制。
Agent系统核心概念：什么是Agent，感知、规划、行动、记忆模块的作用。
检索增强生成（RAG）入门：为什么需要外部知识库，向量数据库的基本原理，以及RAG在Agent中的应用。
长期记忆与短期记忆：理解Agent记忆系统的分类，以及为什么要对记忆进行分层管理。

学习时间: 2-3周

学习资源:

论文/文章: “Attention Is All You Need” (Transformer原文); “ReAct: Synergizing Reasoning and Acting in Language Models” (Agent基础)
博客: Lil’Log 系列博客中关于RAG和Agent的介绍; Jay Alammar 的可视化Transformer博客。
课程: 吴恩达的《ChatGPT Prompt Engineering for Developers》及AI Agent系列短课程。

学习建议: 重点理解为什么LLM需要外部记忆（即解决幻觉和知识时效性问题）。如果不理解RAG和Agent的基本交互模式，很难理解后续的"路由"逻辑。

阶段 2：深入Agent记忆系统与检索优化

学习内容:

Agent记忆架构：深入研究MemGPT、Mem0等主流记忆管理框架，理解它们如何管理上下文窗口。
检索策略：从简单的语义相似度检索到混合检索，理解检索质量对Agent回答的影响。
计算成本与延迟：理解Token计费模式，以及长上下文处理带来的计算延迟问题。
分层存储：理解Hot Memory（快速/昂贵）与Cold Memory（慢速/廉价）的区别，这是"Budget-Tier"概念的基础。

学习时间: 3-4周

学习资源:

论文: “MemGPT: Towards LLMs as Operating Systems”; “Mem0: The memory layer for your AI apps” (文档与源码).
项目源码: 阅读MemGPT或LangChain中的Memory模块源码。
技术文档: LangChain或LlamaIndex关于Retriever和Parent Document Retriever的文档。

学习建议: 尝试动手搭建一个简单的RAG系统，并体验当检索内容过多时，如何通过截断或筛选来控制成本。思考如何根据问题的重要性来决定检索多少数据。

阶段 3：核心算法与路由机制

学习内容:

查询感知：学习如何分析用户的Query意图，包括Query的复杂度、模糊度和领域特异性。
模型路由：学习Cascading Models（级联模型）和Switching Transformers的概念，即如何将不同难度的任务分配给不同规模的模型。
Budget-Aware Inference：理解在固定计算预算下，如何进行动态资源分配。
评估指标：学习如何评估路由系统的效果，包括准确率、Token消耗量和端到端延迟。

学习时间: 4-6周

学习资源:

论文: “RouteLLM: Learning to Route LLMs with Preference Data”; “FrugalGPT: How to Use Large Language Models More Cheaply”; “Query-Aware Routing for Efficient MIR”.
相关领域资料: 阅读关于专家混合模型中"门控网络"的技术原理，这与路由机制有相通之处。

学习建议: 本阶段是连接基础与目标论文的桥梁。重点在于理解"路由"本质上是一个分类或决策问题。你需要掌握如何训练一个轻量级模型（如BERT或Logistic Regression）来决定是调用昂贵的检索/模型，还是使用廉价/本地记忆。

阶段 4：精通目标论文与前沿实现

学习内容:

精读目标论文：《Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory》。
算法细节：剖析论文中提出的具体网络结构、损失函数设计以及如何定义"Budget"约束。
训练与推理流程：理解如何构建训练数据（Query-Retrieval pairs），以及在线推理时如何动态调整路由策略。
复现与实验：尝试复现论文中的核心实验，或基于其思想进行修改。

学习时间: 4-8周

学习资源:

目标论文: Arxiv上的原文及补充材料。
代码库: 如果论文开源，仔细阅读其GitHub代码；若未开源，寻找类似的Memory Routing开源项目（如LangChain中的RouterChain）。
学术工具: 使用Papers with Code网站查找引用该论文的相关工作。

学习建议: 不要只看结论，要看作者如何定义"最优"路由。是追求速度最快，还是精度最高，亦或是两者的帕累托最优？尝试自己设计一个简单的"两档"路由器（例如：简单问题查本地缓存，复杂问题查向量数据库）来对比效果。

阶段 5：系统架构设计与工程落地

常见问题

1: 这篇论文的核心目标是什么？主要解决了什么问题？

A: 这篇论文的核心目标是解决基于大语言模型（LLM）的智能体在处理长期任务时面临的“记忆检索效率与准确性”之间的矛盾。

具体来说，现有的智能体系统通常依赖检索增强生成（RAG）技术来从外部数据库中获取过往信息。然而，现有的检索方法通常存在两个主要缺陷：

资源浪费：无论当前的查询（Query）简单还是复杂，系统往往调用相同级别的计算资源（如总是使用最昂贵的大模型进行Embedding编码或检索），导致计算成本过高。
检索质量波动：简单的查询可能不需要复杂的语义理解，而复杂的查询则需要更深度的上下文分析，如果“一刀切”地处理，会导致简单查询过慢或复杂查询检索不准。

该论文提出了一种**“查询感知的预算层级路由”**机制，旨在根据当前查询的复杂程度，动态地将检索任务分配给不同成本（预算）的处理模块，从而在保证检索质量的同时，显著降低运行时的计算开销。

2: 什么是“预算层级路由”，它是如何工作的？

A: “预算层级路由”是论文提出的核心架构组件。它的基本思想是将检索过程分为多个具有不同计算成本的“层级”。

工作原理如下：

分层设计：系统包含多个层级的检索器或编码器。例如，低层级可能使用参数量较小、速度较快的模型（或较简单的检索算法），高层级则使用参数量大、精度高但速度慢的模型。
动态决策：当智能体接收到一个查询请求时，路由器会首先分析这个查询的特征。
智能分配：
- 如果查询被判定为“简单”或“常规”，路由器会将其分配给低预算层级，快速完成检索，节省时间和算力。
- 如果查询被判定为“复杂”或“模糊”，路由器会将其分配给高预算层级，利用更强的模型理解能力来确保检索到的记忆片段是准确的。

这种机制类似于计算机系统中的“缓存”概念，但在智能体记忆系统中引入了基于语义复杂度的动态路由。

3: 论文中提到的“查询感知”具体指什么？为什么它很重要？

A: “查询感知”是指路由决策模型不仅仅是盲目的随机分配或基于固定规则分配，而是能够理解当前输入查询的语义内容和难度。

它的重要性体现在：

区分难易：并非所有检索任务都需要同等对待。例如，查询“昨天我吃了什么？”可能只需要简单的关键词匹配，而查询“结合上个月的讨论，分析为什么项目A失败了？”则需要复杂的逻辑推理和语义关联。
自适应优化：通过“感知”查询的意图，系统可以自适应地调整资源投入。如果没有这种感知能力，系统可能会在简单问题上浪费算力，或者在复杂问题上偷工减料导致智能体回答出错。

论文通常通过训练一个轻量级的分类器或策略网络来实现这种“感知”，该网络能预测处理某个查询所需的计算量。

4: 这种方法对智能体的运行时性能有什么实际影响？

A: 根据论文的实验结果，该方法对运行时性能有显著的正面影响，主要体现在**“降本增效”**：

降低延迟：由于大量简单的查询被路由到低预算、快速的模型处理，系统的平均响应时间大幅减少。
降低计算成本：在处理大规模记忆库时，不需要总是调用昂贵的大模型进行Embedding或重排序，从而降低了API调用费用或本地推理的能耗。
保持或提升准确性：实验表明，通过智能路由，系统在整体上的检索准确率并没有下降，甚至在某些复杂场景下有所提升。这是因为系统学会了将有限的计算预算集中在真正需要它的难题上。

5: 该技术主要应用在哪些场景？

A: 该技术主要应用于需要长期记忆交互且对响应速度或成本敏感的AI智能体场景，包括但不限于：

个性化AI助手：需要记住用户数周甚至数月的偏好和历史对话，并能快速回答简单事实（如“我的快递在哪”），同时处理复杂规划（如“规划一次基于我过去旅行习惯的行程”）。
企业级知识库问答：员工向AI查询公司文档。简单的文档查找走快速通道，涉及跨部门、隐含逻辑的复杂查询走高精度通道。
游戏NPC：在开放世界游戏中，NPC需要根据与玩家的长期互动历史做出反应。为了维持高帧率，NPC的回忆过程必须极度优化。
边缘计算设备：在算力受限的设备上运行的智能体，必须通过路由策略决定是否将请求上传到云端（高预算）还是在本地处理（低预算）。

6: 论文中的方法有哪些潜在的局限性或挑战？

A: 尽管该方法有效，但也面临一些潜在的挑战：

路由器的训练成本：为了训练一个准确的“查询感知”路由

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**: 在传统的 Agent 系统中，内存检索通常采用“一刀切”的策略（例如总是检索 Top-K 个文档）。请分析这种策略在面对不同复杂度的查询时，具体存在哪两个主要的资源浪费或性能瓶颈？

提示**: 考虑查询的复杂度通常呈长尾分布。思考当查询非常简单（例如“天气如何？”）时，检索大量上下文会发生什么？以及当查询极其复杂，但受限于固定检索数量时，又会发生什么？

引用

ArXiv: http://arxiv.org/abs/2602.06025v1
PDF: https://arxiv.org/pdf/2602.06025v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 论文
标签： Agent / LLM / 智能体 / 内存管理 / 长上下文 / 强化学习 / BudgetMem / 路由策略
场景：大语言模型

面向运行时智能体记忆的查询感知预算层路由
MemSkill：赋予自进化代理学习与演进记忆技能
MemSkill：面向自进化代理的记忆技能学习与演化框架
Agent Skills：AI 智能体技能框架与训练方法
DynaWeb：基于模型的强化学习网页智能体 本文由 AI Stack 自动生成，深度解读学术研究。

面向运行时智能体记忆的查询感知预算层路由