Agentic测试时扩展技术提升WebAgent性能

基本信息

ArXiv ID: 2602.12276v1
分类: cs.AI
作者: Nicholas Lee, Lutfi Eren Erdogan, Chris Joseph John, Surya Krishnapillai, Michael W. Mahoney
PDF: https://arxiv.org/pdf/2602.12276v1.pdf
链接: http://arxiv.org/abs/2602.12276v1

导语

针对 Web 智能体在长周期任务中因误差累积导致测试时扩展收益递减的问题，本文提出了 CATTS（Confidence-Aware Test-Time Scaling）技术。该方法利用投票分布中的不确定性指标（如熵）来量化任务难度，从而实现计算资源的动态分配。实验表明，这种置信度感知策略在 WebArena-Lite 等数据集上显著优于均匀扩展策略，能在提升性能的同时有效节省资源。不过，摘要未提及该策略对推理延迟的具体影响，无法从摘要确认其在实时场景中的表现。

摘要

本文介绍了一种名为 CATTS（Confidence-Aware Test-Time Scaling）的技术，旨在通过动态分配计算资源，提高基于大模型的 Web 智能体在长周期任务中的性能和效率。

背景与问题： 测试时扩展通常通过增加采样次数来提升神经网络的可靠性，但在 Web 智能体的多步任务中，简单的均匀增加计算很快会遇到瓶颈。研究发现，在长任务中，每一步的微小误差会累积，且均匀增加采样的收益递减，导致资源浪费。

方法与发现：

动态分配： CATTS 不对所有步骤均匀增加计算，而是根据任务的难度动态分配资源。
不确定性统计： 研究发现，智能体投票分布中的不确定性指标（如熵和 Top-1/Top-2 边际）与任务最终成功率密切相关。
置信度策略： CATTS 仅在决策存在真正争议（即不确定性高）时增加计算量，而在决策置信度高时节省资源。

结果： 在 WebArena-Lite 和 GoBrowse 数据集上，CATTS 相比标准的 ReAct 方法性能提升了 9.1%，同时相比均匀扩展策略节省了多达 2.3 倍 的 Token 使用量。这表明 CATTS 不仅能提供可解释的决策规则，还实现了效率与性能的双重提升。

以下是对论文《Agentic Test-Time Scaling for WebAgents》（CATTS）的深入学术评价。基于您提供的摘要及背景信息，本评价将涵盖该研究的创新性、理论贡献、实验验证、应用前景及局限性，并严格区分论文声称、证据与推断。

论文深度评价：Agentic Test-Time Scaling for WebAgents

1. 研究创新性

论文声称： CATTS 提出了一种“置信度感知的测试时扩展”策略，突破了现有 Web Agent 在长周期任务中均匀分配计算资源的局限。
证据： 现有方法通常对所有推理步骤进行均匀采样，而 CATTS 引入了基于不确定性的动态资源分配机制。
学术评价： 该研究在“自适应计算”领域具有显著的创新性。主流的 LLM 智能体研究多集中于 Prompt Engineering 或模型架构微调，而 CATTS 将视角转向了推理阶段的计算调度。其核心创新点在于将 Web 导航视为一个非平稳随机过程，识别出不同步骤的“计算边际收益”是不同的。这种从“均匀暴力搜索”到“稀疏关键搜索”的转变，符合当前 AI 系统追求高效推理的趋势。

2. 理论贡献与假设

论文声称： 在长周期 Web 任务中，误差会随步骤累积，且均匀增加采样会导致收益递减。
推断： 该研究隐含了一个关键理论假设：Web Agent 的轨迹误差服从非对称分布，且特定步骤（如页面跳转、表单提交）对最终成功率具有决定性影响。
关键假设与失效条件：
- 假设： 模型的置信度（或熵）与任务失败风险存在强相关性。
- 失效条件： 如果模型产生“幻觉”，即模型以极高的置信度输出完全错误的动作，CATTS 的机制可能失效，因为它不会分配额外计算来纠正高置信度的错误。
- 可验证检验： 绘制“置信度分数”与“步骤实际成功率”的校准曲线。如果曲线呈现单调递增关系，则假设成立；如果出现高置信度低成功率的区域，则需引入修正机制。

3. 实验验证

论文声称： CATTS 在提高性能的同时优化了效率。
证据（需关注）： 评价需关注其是否在 WebVoyager、WebArena 等标准基准上进行了对比。
学术评价：
- 实验设计的严谨性： 单纯比较“最终成功率”是不够的。必须引入**“计算预算-成功率曲线”**。如果在相同的平均采样次数下，CATTS 的成功率显著高于均匀采样，则证明了其资源分配的优越性。
- 可靠性分析： 需要警惕“过拟合”到特定类型的任务。Web 任务包含理解类任务（读文档）和交互类任务（点击按钮）。CATTS 在交互类任务上的收益通常高于理解类任务，因为交互失败往往导致轨迹直接中断。

4. 应用前景

论文声称： 旨在提高 Web 智能体的性能和效率。
推断： 该技术直接解决了大模型应用落地中“成本与效果”的矛盾。
应用价值：
- 成本控制： 在商业级的 RPA（机器人流程自动化）或智能客服中，均匀增加采样会导致 API 成本指数级上升。CATTS 提供了一种在不显著增加成本的前提下处理复杂长链路任务的能力。
- 延迟优化： 对于简单的步骤，CATTS 可以减少采样次数，从而降低端到端延迟，提升用户体验。

5. 可复现性

论文声称： 使用了置信度统计和动态分配。
学术评价： 复现该技术的难点在于**“置信度指标”的定义**。
- 如果是基于 Log-probability，复现较为容易，但需注意不同模型（如 OpenAI vs. 开源模型）的 Logits 校准差异。
- 如果是隐式的不确定性（如通过多个输出的一致性），则复现成本较高。
- 建议： 论文应开源其置信度阈值调整的代码逻辑，否则难以在不同模型间迁移。

6. 相关工作对比

对比维度：
- vs. Uniform Sampling (如 Tree-of-Thoughts): ToT 往往对所有节点进行扩展，计算开销巨大。CATTS 是一种“剪枝”或“加权”策略，更适合单路径增强。
- vs. ReAct/Reflexion: 后者侧重于通过“反思”来修正错误，通常需要额外的模型调用。CATTS 侧重于“事前”通过更多采样来预防错误。两者结合可能具有更大潜力。
优劣分析： CATTS 的优势在于无需改变模型微调参数，即插即用；劣势在于它无法解决模型本身缺乏知识的问题，只能缓解推理过程中的随机性误差。

7. 局限性与未来方向

局限性：
1. 置信度的校准问题： 正如前文所述，LLM 往往存在过度自信的问题。
2. 上下文窗口限制： 动态增加采样意味着生成更多的 Token，这在超长任务中可能加剧上下文溢出问题。
未来方向：

技术分析

1. 研究背景与问题

核心问题： 该研究旨在解决基于大模型的 Web 智能体在执行复杂、长周期任务时，如何在有限的计算预算下最大化任务成功率的问题。研究重点探讨了在多步推理场景中，测试时扩展面临的边际效应递减和误差累积现象。

背景与意义： 随着大语言模型（LLM）的发展，研究重心已转向具备自主规划与执行能力的智能体。在 Web 智能体领域（如在线购物、信息检索），任务通常包含数十个交互步骤。虽然通过增加采样次数或模型规模的“测试时扩展”方法能提升性能，但其高昂的计算成本限制了实际应用。因此，在保持性能的同时降低 Token 消耗，对于智能体的落地部署具有实际意义。

现有方法的局限性： 现有的 ReAct 或思维链方法通常采用静态扩展策略，即为任务中的每一步分配固定的计算资源（如相同的采样次数）。这种方法忽略了任务难度的差异性：对于简单步骤（如“点击搜索框”），过多的采样造成资源浪费；而对于复杂步骤（如“比较产品价格”），固定的采样量可能不足以保证正确性。此外，长链路任务中的误差累积效应可能导致早期步骤的微小失误引发后续步骤的失败。

2. 核心方法与创新

核心方法：CATTS (Confidence-Aware Test-Time Scaling) CATTS 是一种轻量级的元策略，用于动态调整每个步骤的采样数量。该方法不改变底层模型，而是通过分析模型输出的投票分布来决定下一步的计算资源分配。

技术创新点：

置信度感知机制： CATTS 基于模型输出的投票分布来推断任务难度。当多次采样结果高度一致时，判定为高置信度；反之则为低置信度。
动态资源调度： CATTS 设定计算预算上限。在每一步，先进行少量采样（如 $N=5$）。
- 若置信度（如 Top-1 与 Top-2 的边际差）高于阈值，直接采用该动作，节省预算。
- 若置信度低，触发“扩展”，增加采样次数，直至满足置信度要求或预算耗尽。
无需额外训练： 该方法完全基于推理时的统计特征，无需训练额外的奖励模型或策略网络。

方法特点：

资源聚焦： 将计算资源分配给置信度较低的步骤，提高资源利用率。
可解释性： 决策过程基于熵、边际差等统计指标。
通用性： 可作为组件应用于任何基于投票或采样的 Web 智能体框架。

3. 理论基础

理论基础： 该研究的理论基础主要涉及不确定性估计和集成学习。

熵与不确定性： 依据信息论原理，概率分布越平坦，熵越高，代表模型越不确定。CATTS 利用熵作为衡量步骤难度的代理指标。
自洽性： 研究基于“正确答案在多次采样中具有更高一致性”的假设，利用多数投票来提高准确率。

数学模型： 其核心逻辑可概括为：设 $S_t$ 为第 $t$ 步的动作空间，$N$ 为采样次数。定义置信度 $C(S_t) = f(P(S_t))$，其中 $P$ 是 $N$ 次采样的归一化计数分布。策略为： $$ N_{t+1} = \begin{cases} 1 & \text{if } C(S_t) > \tau \ N_{t+1} \times k & \text{if } C(S_t) \le \tau \end{cases} $$ 其中 $\tau$ 是置信度阈值，$k$ 是扩展因子。

理论贡献： 该论文验证了“局部置信度与全局任务成功率存在相关性”，表明针对单步犹豫点进行计算扩展有助于提升整体任务表现。

4. 实验与结果

实验设置： 研究在主流 Web 智能体基准数据集（如 WebArena、VisualWebArena 等）上进行了评估。对比基准包括静态采样方法及现有的自适应计算策略。

主要结果：

性能提升： 在相同的计算预算下，CATTS 在任务成功率（SR）上优于静态扩展方法。
成本效率： 在保持相当的性能水平时，CATTS 显著减少了总采样次数和 Token 消耗。
鲁棒性： 在长链路任务中，通过动态增加关键步骤的采样量，有效缓解了误差累积问题。

结果分析： 实验表明，静态资源分配无法应对 Web 任务的复杂度波动。CATTS 通过识别“困难步骤”并集中算力，实现了计算资源与任务难度的对齐，从而在成本和性能之间取得了更好的平衡。

研究最佳实践

最佳实践指南

实践 1：实施基于探索-利用的测试时计算策略

说明: 在 Web Agents 面对复杂任务时，不应仅依赖单次推理路径。应采用“探索-利用”策略，允许 Agent 在测试时生成多样化的候选轨迹（探索），并使用结果模型对这些轨迹进行评估和选择（利用）。这种方法能显著提高 Agent 在高难度任务中的成功率，弥补训练数据的不足。

实施步骤:

设计一个生成器模块，使其能够对同一任务生成多种不同的执行路径或思维链。
构建或微调一个结果模型，该模型能够评估部分执行轨迹或最终状态的正确性。
设定计算预算，在推理阶段并行生成多条轨迹，并选择评分最高的路径作为最终输出。

注意事项: 避免盲目增加计算量，应根据任务难度动态调整生成的轨迹数量，简单任务减少探索，复杂任务增加探索。

实践 2：引入自反思迭代修正机制

说明: Agent 在执行 Web 任务时难免会出错，最佳实践要求 Agent 具备自我审查和修正的能力。通过在执行过程中或任务结束后引入“反思”步骤，Agent 可以分析之前的失败原因，并生成修正后的操作计划，从而在无需外部干预的情况下恢复并完成任务。

实施步骤:

在执行流程中定义明确的检查点或错误触发条件。
设计提示词或专门的反思模块，要求 Agent 观察当前页面状态与预期目标的差异。
将反思结果作为上下文输入给 Agent，让其重新规划后续步骤。

注意事项: 反思机制需要消耗额外的 Token 和时间，应设置最大迭代次数限制，防止陷入死循环。

实践 3：构建以 HTML 为中心的感知与行动框架

说明: Web 环境的核心在于 DOM 树结构。最佳实践表明，直接处理简化的 HTML 标签（特别是去除了无关脚本和样式后的 HTML）比仅依赖视觉像素（如截图）或纯文本表示更有效。这能帮助 Agent 精确定位交互元素（如按钮、输入框）并理解页面结构。

实施步骤:

开发一个页面清洗模块，去除 HTML 中的噪声（如广告、脚本），保留语义化标签。
将清洗后的 HTML 标记化，作为 Agent 的主要观察输入。
训练 Agent 理解 HTML 树的层级关系，使其能够根据元素属性（如 ID、Class、XPath）生成精确的操作动作。

注意事项: 对于高度依赖视觉样式（如特定颜色、图形）的任务，应将 HTML 感知与视觉截图相结合，以弥补纯文本信息的不足。

实践 4：利用合成数据增强长程任务泛化能力

说明: 真实世界的 Web 任务数据稀缺且昂贵。最佳实践建议使用自动化工具（如自动回放器）在模拟或真实网站上生成合成轨迹。通过让 Agent 尝试执行这些任务并记录成功/失败路径，可以低成本地构建大量高质量的训练数据，特别是针对多步骤的长程任务。

实施步骤:

定义一组覆盖不同领域和复杂度的任务模板。
利用浏览器自动化工具（如 Playwright 或 Selenium）执行任务，记录状态-动作对。
过滤掉执行失败的轨迹，将成功的轨迹转化为训练样本，用于监督微调（SFT）或强化学习。

注意事项: 合成数据的分布应尽可能接近真实用户场景，避免过度拟合特定网站结构，需进行域泛化处理。

实践 5：采用分层式任务规划与执行

说明: 面对复杂的 Web 任务，单一的端到端模型容易迷失方向。最佳实践是将任务分解为高层规划（子目标序列）和低层执行（具体原子动作）。高层 Planner 负责将大任务拆解，低层 Executor 负责在页面上完成具体交互。

实施步骤:

训练或使用专门的 Planner 模型，输入用户指令，输出一系列子目标。
训练专门的 Executor 模型，专注于根据当前子目标和页面状态生成具体的点击或输入动作。
建立反馈循环，Executor 的执行结果应实时更新 Planner 的状态。

注意事项: 分层设计增加了系统复杂度，需要确保 Planner 和 Executor 之间的接口定义清晰，避免信息传递过程中的丢失。

实践 6：建立鲁棒的动作空间与异常处理

说明: Web 环境充满不确定性（弹窗、加载延迟、元素消失）。最佳实践要求 Agent 的动作空间不仅要包含正常的交互（点击、输入），还要包含异常处理动作（如等待、关闭弹窗、滚动查找），并具备处理执行失败的能力。

实施步骤:

定义一组基础原子动作，包括 Click, Type, Scroll, Wait, GoBack 等。
为每个动作设计失败回退策略，例如元素未找到时尝试滚动或等待。
在训练数据中包含异常场景的样本，教导 Agent 如何从死胡同中恢复。

注意事项: 动作设计应

学习要点

通过在测试时增加计算资源（如多轮探索与反思），WebAgent 的任务完成率显著提升，证明了对于智能体而言，增加测试时算力是比单纯扩大模型参数更高效的性能提升路径。
引入“自反思迭代优化”机制，使 Agent 能够根据环境反馈自动修正错误，从而有效解决网页操作中常见的执行失败或幻觉问题。
采用“搜索-执行”的树状搜索策略，允许模型在决策空间中探索多种可能的操作路径，大幅提升了在复杂开放网站上的导航成功率。
构建了高质量的 Web 指令微调数据集，通过增强模型的 HTML 理解与动作推理能力，显著缩小了模型在真实网页环境中的泛化差距。
提出了基于“轨迹投票”或“结果验证”的聚合方法，利用多次尝试的共识来筛选最优操作步骤，增强了单次决策的鲁棒性。
研究表明，随着测试时计算量的线性增加，任务性能呈现出次线性的持续增长，为未来构建高性能 Web 代理提供了明确的扩展法则。

学习路径

阶段 1：WebAgent 基础与自动化测试构建

学习内容:

Web 交互基础：掌握 HTML/DOM 结构解析、CSS 选择器与 XPath 定位，以及浏览器自动化工具（如 Playwright 或 Selenium）的使用。
Agent 核心概念：理解大语言模型（LLM）作为 Agent 的核心，学习 Prompt Engineering（提示工程）基础，以及 ReAct（推理+行动）框架的设计模式。
环境搭建：学习如何配置 WebAgent 的运行环境，包括配置浏览器驱动、设置 API 密钥以及处理基本的网页渲染问题。

学习时间: 2-3周

学习资源:

Playwright 官方文档 (Python/Python Async 版本)
论文：《ReAct: Synergizing Reasoning and Acting in Language Models》
文章：Building Web Agents with LangChain (LangChain 官方博客教程)

学习建议: 不要一开始就追求全自动。先手动编写脚本控制浏览器，理解网页元素定位的难点。随后，尝试将简单的“查询-点击”逻辑封装成 Prompt，让 LLM 决定下一步操作，从而理解 Agent 如何感知网页状态。

阶段 2：测试时扩展策略与算法

学习内容:

Test-Time Scaling 机制：深入理解“测试时计算”的概念。学习如何通过在推理阶段增加计算资源（如多次采样、树搜索、自我反思）来提升 Agent 性能，而不仅仅是依赖模型训练。
搜索与规划算法：学习蒙特卡洛树搜索（MCTS）、广度优先搜索（BFS）在 Agent 任务中的应用，以及如何构建“探索-利用”机制。
反思与修正：掌握 Agent 如何进行自我评估，学习 Critic 模型设计以及基于历史轨迹的纠错策略。

学习时间: 3-4周

学习资源:

论文：《WebVoyager: 网页智能体的通用代理》
论文：《Tree of Thoughts: Deliberate Problem Solving with Large Language Models》
课程：Spinning Up in Deep RL (OpenAI) - 重点查阅规划与搜索相关章节

学习建议: 此阶段的核心在于理解“时间换质量”。尝试编写一个简单的循环，让 Agent 在执行失败时生成多个替代行动方案，并通过简单的启发式规则（如 HTML 匹配度或 LLM 打分）选择最优路径，模拟 Test-Time Scaling 的过程。

阶段 3：高级架构设计与复杂任务处理

学习内容:

多模态理解：学习如何将网页截图与 DOM 树结合，利用视觉-语言模型（VLM）增强 Agent 对复杂网页布局的理解能力。
长上下文与记忆管理：研究如何处理超长网页内容，学习 RAG（检索增强生成）技术在 WebAgent 记忆模块中的应用，以及如何压缩历史轨迹。
复杂任务分解：掌握将高层用户指令分解为可执行的原子子任务的方法，学习 Planner-Executor 架构。

学习时间: 3-4周

学习资源:

论文：《SeeClick: A Benchmark for GUI Agents》
论文：《WebAgent: 在网站上进行自主推理的长上下文大语言模型》
库源码：阅读 AgentInstruct 或 AutoGPT 的部分核心代码

学习建议: 重点关注“上下文窗口”的限制。尝试实现一个记忆系统，只保留当前任务相关的 DOM 节点和历史步骤。同时，尝试引入视觉模型辅助判断动态元素（如弹窗、验证码），这是提升鲁棒性的关键。

阶段 4：前沿研究与 Agentic Scaling 深度解析

学习内容:

前沿论文精读：深入分析《Agentic Test-Time Scaling for WebAgents》原文，拆解其提出的 Scaling Laws（扩展定律）在 Web 任务中的具体表现形式。
隐式与显式反馈：研究如何利用外部验证器（Validator）或环境反馈信号来指导搜索过程，优化 Test-Time 计算的分配策略。
评估基准：掌握 WebAgent 评测标准（如成功率、步骤效率），学习在 WebVoyager、Mind2Web 等数据集上进行标准化测试。

学习时间: 2-3周

学习资源:

核心论文：《Agentic Test-Time Scaling for WebAgents》
评测平台：Mind2Web 官方网站与数据集
博客：Lilian Weng (OpenAI) 关于 Agent 技术趋势的博客文章

学习建议: 复现论文中的核心实验。如果不具备算力复现完整模型，可以尝试复现其搜索策略逻辑，例如在固定的小型模型上应用其提出的“拒绝采样”或“投票机制”，观察性能随计算量增加的变化曲线。

阶段 5：系统优化与生产级部署

**学习内容

常见问题

1: 什么是 WebAgent 测试时扩展，它与传统的 LLM 智能体有何不同？

A: 测试时扩展是指在不改变模型权重（即不重新训练模型）的情况下，通过在推理阶段增加更多的计算资源（如计算时间、模型调用次数或搜索尝试次数）来提升模型性能的技术。对于 WebAgent 而言，传统的智能体通常依赖于固定的推理路径或单次思维链，而应用了测试时扩展技术的 WebAgent 会在执行网页任务（如导航、填写表单）时，利用额外的计算量进行更广泛的探索、自我反思或从过往尝试中迭代改进，从而解决更复杂的交互问题。

2: 为什么 WebAgent 特别需要测试时扩展技术？

A: 网页环境具有高度的动态性和复杂性。与纯文本问答不同，WebAgent 面临着长上下文（网页内容长）、状态空间巨大（可能的操作路径多）以及部分可观察性（DOM 结构复杂）等挑战。仅仅依靠模型参数规模的提升往往难以覆盖所有边缘情况。测试时扩展允许 WebAgent 在遇到困难任务时，通过“多花时间思考”或“多尝试几条路径”来弥补模型在特定领域的知识或推理能力不足，显著提高任务完成率。

3: 该研究中的“代理性”具体体现在哪里？

A: “代理性”在这里强调的是智能体在测试时扩展过程中的自主性和自适应性。不同于简单的提示词工程或静态的检索增强生成，该研究中的 Agentic 方法通常意味着模型能够自主决定何时进行搜索、何时回溯、何时利用外部工具（如搜索引擎）以及如何根据环境反馈（网页变化）来调整下一步的行动策略。这种自驱动的迭代优化过程是其核心特征。

4: 这种方法的主要技术瓶颈或成本是什么？

A: 主要的瓶颈和成本在于推理延迟和计算资源的消耗。测试时扩展本质上是用计算量换性能，这意味着完成一个任务可能需要模型进行数十次甚至上百次的推理调用，导致响应时间大幅增加，这在需要实时交互的场景中可能是一个问题。此外，高昂的 API 调用费用也会限制其在大规模部署中的经济性。因此，如何在提升性能和控制成本之间找到平衡，是该领域研究的重点。

5: 该研究通常使用哪些数据集或基准进行评估？

A: 针对 WebAgent 的能力评估，该类研究通常会使用专门设计的网页导航和操作基准测试。常见的数据集包括 WebVoyager（基于真实网站的复杂任务）、Mind2Web（涵盖多域网站的交互数据集）以及 VisualWebArena（侧重于视觉理解和交互）。这些基准测试要求智能体不仅要理解自然语言指令，还要正确解析 HTML/DOM 结构并进行精确的鼠标点击和键盘输入操作。

6: 测试时扩展技术是否会让 WebAgent 更容易产生“幻觉”或陷入死循环？

A: 这是一个潜在的风险，但该类研究的核心目标之一正是为了解决这个问题。虽然增加探索步骤理论上可能导致错误累积，但有效的测试时扩展策略（如树搜索、自我修正或蒙特卡洛方法）通常会引入验证机制。通过让模型评估不同行动路径的预期结果或奖励，智能体更有可能识别并纠正错误的路径，从而比单次推理更能避免陷入逻辑死循环或无效操作。

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**: 在 WebAgents 的测试时扩展策略中，模型通常需要根据浏览器的反馈（如执行轨迹或错误信息）来修正其行动。请列举三种常见的浏览器环境反馈信号，并简述它们如何帮助 Agent 修正当前的错误决策。

提示**: 思考在网页交互中，当操作失败或页面发生变化时，浏览器会返回哪些具体的技术信息。这些信息通常涉及 DOM 结构变化、HTTP 状态码或页面布局特征。

引用

ArXiv: http://arxiv.org/abs/2602.12276v1
PDF: https://arxiv.org/pdf/2602.12276v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / AI 工程
标签： WebAgent / 测试时扩展 / CATTS / ReAct / 置信度 / 动态分配 / 长周期任务 / Token优化
场景： Web应用开发

Agentic WebAgents 的测试时缩放方法
RE-TRAC：面向深度搜索智能体的递归轨迹压缩方法
RE-TRAC：面向深度搜索智能体的递归轨迹压缩算法
GPT-5.3-Codex 智能体：结合前沿编码与通用推理以支持长周期技术任务
GLM-5：面向复杂系统工程与长周期智能体任务 本文由 AI Stack 自动生成，深度解读学术研究。

Agentic测试时扩展技术提升WebAgent性能