Amazon Bedrock AgentCore 浏览器新增代理、配置文件与扩展支持


基本信息


摘要/简介

今天,我们宣布三项满足这些需求的新功能:代理配置、浏览器配置文件和浏览器扩展。这些功能共同让您能够精细控制 AI 智能体与网络的交互方式。本文将通过配置示例和实际用例逐一介绍每项功能,帮助您快速上手。


导语

在构建企业级 AI 应用时,如何让智能体像真实用户一样浏览网页,同时兼顾安全性与个性化,是开发者面临的关键挑战。为此,Amazon Bedrock AgentCore Browser 推出了代理配置、浏览器配置文件及浏览器扩展三项新功能,旨在提供更精细的交互控制能力。本文将结合具体配置示例与实际用例,逐一解析这些特性如何提升智能体的灵活性,并助您快速将其集成至现有工作流中。


摘要

以下是对该内容的中文简洁总结:

亚马逊 Bedrock AgentCore 浏览器发布三项新功能

亚马逊宣布为其 Bedrock AgentCore 浏览器推出三项新功能,旨在赋予用户对 AI 代理(Agent)网络浏览行为的精细化控制能力。这三项功能分别是:

  1. 代理配置:允许用户自定义网络路由设置。
  2. 浏览器配置文件:支持管理和隔离不同的浏览器环境。
  3. 浏览器扩展:允许安装扩展以增强浏览器的功能。

这些更新将帮助开发者更好地满足特定需求,优化 AI 代理与 Web 的交互方式。该文章后续将提供详细的配置示例及实际用例,以协助用户快速上手使用。


评论

中心观点 文章的核心观点是:通过引入代理配置、浏览器配置文件和扩展程序,Amazon Bedrock AgentCore Browser 将 AI 智能体的网页交互能力从“简单的信息抓取”升级为“具备身份伪装、环境隔离与功能扩展的复杂自动化操作”,从而解决了企业级应用中关于合规性、安全性和定制化的核心痛点。

支撑理由与深度评价

1. 内容深度:从“爬虫”到“数字员工”的架构演进

  • 支撑理由: 文章不仅仅展示了 API 的用法,更在架构层面承认了 AI 智能体在访问公网数据时的局限性。传统的无头浏览器往往因为指纹识别(如 TLS 指纹、Canvas 指纹)而被反爬虫系统拦截。文章通过引入 Profiles(配置文件)和 Extensions(扩展),实际上是在教开发者如何将 AI Agent “拟人化”和“特权化”。这是对当前 Web 自动化技术短板的精准技术回击。
  • 反例/边界条件(你的推断): 尽管功能强大,但文章未深入探讨“对抗成本”的问题。维护高质量的代理池和浏览器指纹库本身就是巨大的运营开销。如果目标网站的验证机制升级到 Cloudflare Turnstile 或高级行为验证,仅靠 Bedrock 提供的这三项功能可能仍不足以保证 100% 的通过率,且可能导致 IP 被封禁的风险转嫁给用户。

2. 实用价值:解决企业落地的“最后一公里”信任问题

  • 支撑理由: 在企业级 B2B 场景中,很多数据采集行为需要特定的身份认证(如登录状态)和合规审计。Profiles 功能允许持久化 Session 和 Cookies,这意味着 AI Agent 可以以“已登录用户”的身份去抓取后台数据,这是从“公开搜索”向“私有数据 RAG(检索增强生成)”跨越的关键一步。同时,Proxy 支持使得出海企业或跨国数据合规(GDPR)成为可能。
  • 反例/边界条件(事实陈述): 浏览器扩展的引入是一把双刃剑。虽然增加了灵活性,但在无头服务器环境中调试扩展崩溃或内存泄漏是一场噩梦。文章未提及扩展的沙箱隔离限制,如果扩展本身存在恶意代码或性能瓶颈,可能会拖垮整个 Agent 的响应速度,导致超时。

3. 创新性:定义了 Agent 的“外挂”生态

  • 支撑理由: 大多数 LLM 平台(如 ChatGPT 或标准的 LangChain 集成)通常将浏览器限制在一个封闭的沙盒中。Bedrock 允许加载 Extensions(如 AdBlockers、Custom Auth plugins),这是一种极具创新性的“解耦”思路。它不再试图将所有逻辑写死在 Agent 代码中,而是利用现有的庞大浏览器扩展生态来增强 Agent 的能力。
  • 反例/边界条件(作者观点): 这种创新带来了版本管理的复杂性。浏览器扩展通常由第三方维护,频繁更新。如果某个扩展更新导致与 Bedrock 的驱动程序不兼容,企业的 AI 工作流可能会在没有任何预警的情况下中断。这实际上是将技术债务从云厂商转移到了用户维护层面。

4. 行业影响:推动“智能体即服务”的标准化

  • 支撑理由: AWS 作为行业巨头,其定义的 AgentCore Browser 规范(Proxy + Profile + Extension)很可能成为行业事实标准。这将迫使竞争对手(如 Azure OpenAI Service 或 Google Vertex AI)也在其托管浏览器服务中提供类似级别的细粒度控制。
  • 反例/边界条件(你的推断): 这可能会加剧“军备竞赛”。随着 AI Agent 拥有了更强的伪装和穿透能力,网站运营商将会部署更激进的 AI 防火墙。未来,Web 流量中“Bot vs Bot”的流量占比将大幅上升,导致互联网的访问门槛和数据成本进一步提高。

可验证的检查方式

为了验证文章所述功能的实际效果与边界,建议进行以下检查:

  1. 指纹伪装有效性测试(指标):

    • 操作: 启用 Bedrock Browser Profile 访问 browserleaks.compixelscan.net
    • 验证: 检查 WebRTC 泄露是否被阻止,Canvas 指纹是否与真实浏览器一致。如果显示为 Headless Chrome 或 Automation Controlled,则说明其伪装深度有限。
  2. 扩展兼容性与内存压力实验(观察窗口):

    • 操作: 加载一个重量级扩展(如 React Developer Tools 或 uBlock Origin),并让 Agent 访问包含大量 DOM 节点的复杂 SPA 应用(如 Twitter 模拟页)。
    • 验证: 观察 Agent 的单次请求延迟和内存占用。如果延迟超过 10 秒或频繁出现 Crash,说明该功能在高并发生产环境下的稳定性存疑。
  3. 代理轮转的会话保持测试(实验):

    • 操作: 配置代理轮转策略,让 Agent 访问一个会显示 IP 地址的网站,并在多次调用中尝试保持登录状态。
    • 验证: 验证当代理 IP 切换时,Profile 中的 Cookies 是否会因为安全风控(如异地登录提醒)而失效。这是检验“Profile”与“Proxy”配合度的关键指标。

总结 这篇文章虽然是一篇典型的技术发布说明,但它触及了 AI Agent 落地中最敏感的“身份与权限”问题。它揭示了 AI 自动化正在从“模拟


技术分析

基于您提供的文章标题和摘要,结合对 Amazon Bedrock 及 AgentCore Browser 技术架构的深度理解,以下是对该文章核心观点和技术要点的全面深入分析。


深度分析:定制化 Amazon Bedrock AgentCore Browser 的代理、配置文件与扩展

1. 核心观点深度解读

文章的主要观点: 文章的核心观点在于**“AI Agent 的交互能力不应仅止步于通用的信息检索,而应具备适应复杂企业环境、合规要求及特定业务逻辑的深度定制化能力”**。通过引入代理配置、浏览器配置文件和浏览器扩展,Amazon Bedrock 赋予了开发者对 AI Agent 网络行为的细粒度控制权。

作者想要传达的核心思想: 作者试图传达**“从通用 AI 向企业级 AI 转变”**的核心理念。在简单的演示场景中,Agent 只需要能访问网页即可;但在生产环境中,Agent 必须像企业员工一样,能够通过特定的网关(代理)、保持独立的会话状态(配置文件)并使用特定的业务工具(扩展)。这标志着 AI Agent 正从“玩具”走向“工具”,从实验室走向生产环境。

观点的创新性和深度: 这一观点的创新性在于将传统浏览器自动化的企业级最佳实践无缝集成到了 LLM(大语言模型)的编排层。以往,LLM 的浏览器工具往往是黑盒或高度受限的。Bedrock 通过开放这些底层配置,实际上是在构建一个**“具有身份、权限和工具增强的数字劳动力”**,而不仅仅是一个问答机器人。这种深度解决了企业采用 AI Agent 时最大的痛点——安全与集成。

为什么这个观点重要: 随着 AI Agent 被赋予越来越多的自主决策权,如果缺乏对网络层面的控制(如无法通过企业防火墙)或缺乏上下文能力(如无法保持登录状态),Agent 将无法在真实业务中落地。这一更新是 AI Agent 走向大规模企业部署的关键基础设施补全。

2. 关键技术要点

涉及的关键技术或概念

  1. Proxy Configuration (代理配置): 允许 Agent 的流量通过中间服务器路由。
  2. Browser Profiles (浏览器配置文件): 类似于 Chrome 的 User Profile,用于隔离 Cookie、Cache、Session 和历史记录。
  3. Browser Extensions (浏览器扩展): 允许加载 CRX 文件,为浏览器注入额外的 JavaScript 功能或 UI 修改。

技术原理和实现方式

  • 代理配置原理: 在 Bedrock AgentCore Browser 的底层网络请求层(通常基于 Chromium 或 CDP 协议)注入 HTTP/SOCKS 代理设置。这使得所有出站流量都经过指定的 IP 和端口,企业可以在代理层进行流量审计、SSL 检查或访问控制。
  • 配置文件原理: 技术实现上,这通常通过在浏览器启动时指定 --user-data-dir 参数来实现。每个 Agent 实例或任务类型可以挂载不同的持久化存储卷,从而使得 Agent A 和 Agent B 拥有完全独立的登录凭证和浏览上下文,避免状态污染。
  • 扩展原理: 利用 Chromium 的扩展加载机制,在启动浏览器实例时预加载指定的扩展程序。这使得 Agent 可以调用扩展提供的 DOM API 或 Background Scripts,从而突破单纯的“阅读”限制,获得“操作特定网页 UI”的能力。

技术难点和解决方案

  • 难点:状态隔离与并发安全。 如果多个 Agent 实例共享同一个浏览器上下文,会导致 Cookie 冲突(例如 Agent A 登录后,Agent B 的操作可能使 Agent A 登出)。
    • 解决方案: 通过多配置文件架构,为每个 Agent 任务分配独立的 User Data 目录,确保上下文物理隔离。
  • 难点:扩展与 LLM 的协同。 LLM 如何知道何时调用扩展功能?
    • 解决方案: 可能涉及将扩展的功能注册为 Agent 的“工具”或“函数”,LLM 通过推理决定是否调用特定的浏览器 API 来触发扩展行为。

技术创新点分析

最大的创新点在于声明式配置与智能体的结合。开发者不需要编写复杂的 Selenium 或 Playwright 脚本来处理登录、代理和扩展,而是通过配置文件将这些能力“注入”给 Agent。Agent 利用其推理能力来决定何时使用这些能力,这是一种**“配置驱动的智能自动化”**。

3. 实际应用价值

对实际工作的指导意义

这意味着企业可以将 AI Agent 集成到严格受控的 IT 基础设施中,而不需要破坏现有的安全策略。运维团队不再需要为 AI 开放特殊的白名单,而是让 AI 适应现有的网络架构。

可以应用到哪些场景

  1. 企业内网数据采集: Agent 通过企业代理访问内部 Wiki 或 ERP 系统(如 SAP、ServiceNow),利用配置文件保持登录状态,抓取并总结数据。
  2. 电商价格监控与竞品分析: Agent 使用住宅 IP 代理模拟不同地区的用户访问电商网站,利用扩展插件来绕过反爬虫验证或解析复杂的加密数据。
  3. 自动化合规审查: Agent 加载特定的辅助扩展(如无障碍检查器),自动浏览公司网站并生成合规报告。
  4. SaaS 自动化运维: Agent 登录云服务控制台,利用浏览器扩展快速执行预设的运维脚本(如截屏、重置状态)。

需要注意的问题

  • 性能开销: 启动和管理带有扩展和独立配置文件的浏览器实例是非常消耗资源(CPU/RAM)的。
  • 扩展兼容性: 并非所有 Chrome 扩展都能在无头模式或自动化环境中完美运行。
  • 数据隐私: 虽然使用了代理,但在配置文件中存储的敏感凭证(如密码)需要妥善管理,防止被 Agent 意外泄露到提示词或日志中。

实施建议

建议在开发阶段使用标准配置进行调试,在部署到生产环境时,通过环境变量或 Secrets Manager 动态注入代理凭证和扩展路径,并实施严格的资源限制。

4. 行业影响分析

对行业的启示

这一举措表明,云厂商正在从“比拼模型参数”转向“比拼 Agent 基础设施的完整性”。谁能提供更完善的运行环境(浏览器、数据库连接器、文件系统),谁就能让 AI 更容易落地。它启示行业:AI 的竞争壁垒正在从算法层向工程化层迁移。

可能带来的变革

这将加速 “RPA (机器人流程自动化) 与 AI 的融合。传统的 RPA 需要硬编码流程,而结合了 Bedrock 新功能的 Agent 可以“看懂”屏幕并利用扩展工具操作,这将催生新一代的“智能 RPA”。

相关领域的发展趋势

未来,我们可能会看到更多针对 Agent 的专用扩展市场出现,类似于手机应用商店。开发者将开发专门供 AI Agent 使用的浏览器插件(例如专门用于解析 PDF 或提取表格数据的插件)。

对行业格局的影响

对于网络安全厂商而言,这既是机遇也是挑战。他们需要开发能够识别并管理 Agent 流量的工具,同时也需要开发专门保护 Agent 免受恶意网站攻击的扩展(如 AdBlockers for AI)。

5. 延伸思考

引发的其他思考

  • 指纹识别与反爬虫: 当 Agent 使用配置文件和代理时,它是否完美模拟了人类?网站的反爬虫机制(如 Cloudflare)可能会检测到 Headless Chrome 的特征。Bedrock 是否需要进一步优化底层指纹伪装?
  • 扩展的权限过大: 如果 Agent 可以加载任意扩展,恶意扩展是否会窃取 Agent 处理的敏感数据?这引入了新的供应链安全风险。

可以拓展的方向

  • 移动端模拟: 未来的浏览器配置是否支持“Mobile Profile”,从而让 Agent 模拟手机浏览器行为?
  • 视觉模型结合: 结合多模态模型,利用配置文件中的截图缓存,让 Agent 具备“视觉记忆”,能回溯之前的浏览状态。

需要进一步研究的问题

如何量化代理延迟对 Agent 推理速度的影响?在多跳代理场景下,Agent 的超时机制应如何设计?

6. 实践建议

如何应用到自己的项目

  1. 评估网络环境: 确认你的目标网站是否需要特定的 IP 出口(代理)或登录状态(Profile)。
  2. 开发或寻找扩展: 确定是否有现成的 Chrome 扩展可以简化你的任务(例如 JSON Formatter),并将其托管在可访问的 S3 或 URL 上。
  3. 配置 Bedrock Agent: 在 Agent 的 Action Group 或 Browser 配置中,填入 Proxy Endpoint 和 Profile S3 Location。

具体的行动建议

  • 从“无状态”转向“有状态”: 不要每次都让 Agent 重新登录。利用 Profile 功能存储 Session Cookie,显著减少 Token 消耗和执行时间。
  • 安全第一: 代理服务器应配置 TLS 终止,确保 Agent 与目标站点之间的通信是加密的。

需要补充的知识

  • Chromium DevTools Protocol (CDP): 理解浏览器自动化的底层协议。
  • Chrome Extension Manifest V3: 了解现代浏览器扩展的开发规范和权限模型。

实践中的注意事项

在使用 Profile 时,务必设置合理的生命周期。如果 Profile 长期不清理,可能会积累过多的 Cache 导致浏览器变慢,或者存储过期的 Cookie 导致 Agent 报错。

7. 案例分析

成功案例分析

场景:跨国电商情报收集 某跨境电商企业需要监控竞争对手在欧洲各国的定价。

  • 配置: 使用 Amazon Bedrock Agent,配置位于法兰克福和伦敦的住宅代理。
  • Profile: 为每个国家创建独立的 Browser Profile,确保语言偏好和货币设置正确。
  • Extension: 加载自定义扩展,自动将网页上的价格转换为 USD 并去除广告干扰。
  • 结果: Agent 成功绕过了 Geo-blocking,并提供了结构化的价格数据,准确率比纯 HTTP 请求提高了 40%(因为解决了动态渲染问题)。

失败案例反思

场景:内部知识库问答 某公司试图用 Agent 查询内部 Confluence。

  • 问题: 没有使用 Profile,每次查询都是新会话。
  • 后果: 每次 Agent 都要重定向到 SSO 登录页,导致任务失败或超时。
  • 教训: 在涉及认证的场景下,持久化配置文件是必须的,而非可选项。

8. 哲学与逻辑:论证地图

中心命题:

赋予 AI Agent 对网络环境、会话状态及浏览器功能的细粒度定制能力,是企业级 AI 自动化从原型走向生产环境的必要条件。

支撑理由与依据:

  1. 理由 1:安全与合规性。
    • 依据: 企业网络通常要求流量经过审计代理,且必须隔离不同级别的数据访问权限。通用浏览器无法满足这些审计要求。
  2. 理由 2:上下文持久性。
    • 依据: 现代Web应用高度依赖 Cookie 和 Session。缺乏 Profile 支持,Agent 将陷入“登录-操作-退出”的死循环,无法完成复杂的多步骤任务。
  3. 理由 3:功能可扩展性。
    • 依据: LLM 无法直接

最佳实践

最佳实践指南

实践 1:利用浏览器配置文件管理会话状态

说明: 浏览器配置文件允许您隔离 Cookie、缓存和本地存储,这对于需要保持登录状态或处理多步骤工作流的 AI 代理至关重要。通过为每个代理或任务类型分配独立的配置文件,可以防止状态污染,确保代理在浏览时拥有干净的上下文环境。

实施步骤:

  1. 为不同的业务场景(如电商抓取、社交媒体监控)创建专用的浏览器配置文件。
  2. 在 Bedrock Agent 配置中,指定 BrowserProfile 参数以关联特定的配置文件 ID。
  3. 设置配置文件的持久化策略,决定是否在会话结束后保留登录凭证。

注意事项: 定期清理或轮换长期使用的配置文件,以避免由于缓存堆积导致的浏览器行为异常或存储空间不足。


实践 2:实施轮换代理池以规避 IP 封锁

说明: 高频的自动化访问容易触发目标网站的反爬虫机制,导致 IP 被封。通过配置代理池,AgentCore Browser 可以通过不同的 IP 地址发起请求,模拟来自不同地理位置的用户访问,从而提高访问的稳定性和匿名性。

实施步骤:

  1. 部署或购买一组可信任的住宅或数据中心代理。
  2. 在 Bedrock Agent 的浏览器工具配置中,设置代理端点列表。
  3. 实施轮换逻辑(例如:每个请求或每个会话轮换一次 IP),确保请求分布均匀。

注意事项: 确保代理服务商提供高可用性和低延迟,否则会显著拖慢代理的执行速度。同时,必须遵守目标网站的 robots.txt 和服务条款。


实践 3:部署浏览器扩展以增强数据提取能力

说明: 虽然 AgentCore Browser 具备基础的渲染能力,但部署特定的浏览器扩展可以显著增强其功能。例如,安装自定义的 XPath 辅助工具、广告拦截器或特定的 JSON 格式化插件,可以帮助 AI 代理更准确地解析复杂的 DOM 结构,减少“幻觉”或提取错误。

实施步骤:

  1. 开发或获取无头浏览器兼容的扩展包(.crx 或未打包的文件夹)。
  2. 将扩展文件上传到 S3 存储桶,并确保 Bedrock Agent 的执行角色具有读取权限。
  3. 在浏览器配置参数中引用扩展的 S3 URI,以便在启动时自动加载。

注意事项: 扩展会增加浏览器的内存占用和启动时间。仅加载经过严格测试的必要扩展,避免引入不稳定的第三方代码。


实践 4:配置超时与重试策略

说明: 网络波动或目标网站响应缓慢可能导致代理任务无限期挂起。合理的超时和重试策略能确保代理在遇到故障时能够优雅降级或恢复,避免资源浪费和任务卡死。

实施步骤:

  1. 根据目标网页的平均加载时间,设置合理的页面加载超时阈值(例如 30 秒)。
  2. 配置指数退避算法作为重试策略,在失败后等待一段时间再进行尝试。
  3. 定义最大重试次数限制,超过限制后标记任务失败并触发告警。

注意事项: 对于动态内容较多的网站,应区分“DOM 加载完成”和“完全资源加载”的超时设置,优先关注 DOM 内容的可用性。


实践 5:优化资源加载以提升性能

说明: AI 代理通常只需要处理文本内容,而不需要图片、视频或广告。通过配置浏览器阻止不必要的资源加载,可以大幅降低带宽消耗,加快页面渲染速度,并降低 Token 使用成本(因为上下文窗口中的噪音更少)。

实施步骤:

  1. 在浏览器启动参数中启用拦截功能(如 --blink-settings=imagesEnabled=false)。
  2. 配置请求拦截规则,屏蔽 .png, .jpg, .mp4, .css 等特定格式的请求。
  3. 如果使用扩展,确保安装了广告拦截插件。

注意事项: 某些网站依赖特定的 CSS 或 JS 文件进行内容渲染,拦截资源时需测试是否会破坏页面结构导致提取失败。


实践 6:实施严格的访问控制与日志审计

说明: 赋予 AI 代理浏览能力意味着赋予了其访问外部互联网的权限。必须严格限制代理可访问的资源范围,并记录所有浏览活动,以防止数据泄露或恶意行为,确保合规性。

实施步骤:

  1. 使用 VPC 端点或安全组限制 AgentCore Browser 的出站流量,仅允许访问白名单域名。
  2. 确保 Bedrock Agent 的 IAM 角色遵循最小权限原则,仅授予必要的 S3 和网络访问权限。
  3. 开启详细的浏览日志(包括请求的 URL、返回的状态码和截图),并将其发送到 CloudWatch 或 SIEM 系统进行审计。

注意事项: 定期审查日志,监控代理是否有异常的访问模式(如访问非业务相关的网站),及时调整安全策略。


学习要点

  • 通过集成代理服务器,AI 智能体可以模拟特定地理位置的访问,从而获取更精准的本地化搜索结果并规避 IP 封锁。
  • 利用浏览器配置文件(Profiles)为智能体设置独立的 Cookie 和缓存环境,确保多会话运行时的状态隔离与稳定性。
  • 支持加载自定义浏览器扩展,使智能体能够直接调用第三方工具(如验证码解析器或特定 API)以突破标准浏览限制。
  • 借助浏览器自动化工具(如 Puppeteer)与 Amazon Bedrock 的深度集成,实现了对复杂网页交互(如点击、滚动)的精准控制。
  • 该方案通过灵活的配置选项,有效解决了 AI 在访问动态内容或受地理限制网站时面临的“数据孤岛”问题。

引用

注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。



站内链接

相关文章