Iberdrola 利用 Amazon Bedrock 和 AgentCore 优化 ServiceNow 运营
基本信息
- 来源: AWS Machine Learning Blog (blog)
- 发布时间: 2026-02-10T18:31:57+00:00
- 链接: https://aws.amazon.com/blogs/machine-learning/iberdrola-enhances-it-operations-using-amazon-bedrock-agentcore
摘要/简介
作为全球最大的公用事业公司之一,Iberdrola 拥抱前沿的人工智能技术,旨在彻底变革其在 ServiceNow 中的 IT 运营。通过与 AWS 合作,Iberdrola 利用 Amazon Bedrock AgentCore 实施了多种代理架构,重点聚焦三大领域:优化草稿阶段的变更请求验证、以情境智能丰富事件管理,以及借助对话式 AI 简化变更模型选择。这些创新有效减少了瓶颈,帮助团队加速工单解决,并在全组织范围内实现一致且高质量的数据处理。
导语
作为全球公用事业的领军者,Iberdrola 正通过 AWS 探索人工智能在 IT 运维中的深度应用。本文详细介绍了其利用 Amazon Bedrock AgentCore 构建多代理架构的实践,重点涵盖变更请求验证、事件管理及模型选择等核心场景。通过阅读,您将了解该技术如何优化工作流瓶颈、加速工单解决,以及如何实现全组织范围内的高质量数据处理。
摘要
Iberdrola(伊维尔德罗拉),作为全球最大的公用事业公司之一,通过采用前沿的人工智能技术,成功实现了其 ServiceNow 平台中 IT 运营的变革。
在与 AWS 的合作中,Iberdrola 利用 Amazon Bedrock AgentCore 实施了多种智能代理架构,重点优化了三个核心领域:
- 变更请求验证优化:在草稿阶段即介入,优化验证流程。
- 增强事件管理:利用上下文智能丰富事件处理能力。
- 简化变更模型选择:通过对话式 AI 便捷地选择合适的变更模型。
这些创新举措有效减少了运营瓶颈,不仅帮助团队加速了工单解决速度,还确保了整个组织数据处理的持续性与高质量。
评论
中心观点: 本文展示了Iberdrola通过AWS Amazon Bedrock AgentCore在ServiceNow中构建多智能体架构,标志着能源行业IT运维正从“脚本化自动化”向“目标导向的自主智能体”范式转移,其实践证明了在私有化/混合云环境下,通过基础模型编排而非单一模型来解决复杂企业工作流的可行性。
支撑理由与深度评价:
架构演进:从RAG到Agentic AI的跨越
- [事实陈述] 文章指出Iberdrola利用AgentCore构建了不同的智能体架构。
- [你的推断] 这意味着Iberdrola不再满足于简单的“检索增强生成(RAG)”即问答模式,而是进入了“Agentic AI”阶段。传统的RAG只能根据已知知识回答问题,而AgentCore架构允许AI进行规划、调用工具(如ServiceNow API)并执行任务。
- [深度分析] 这种架构解决了LLM“幻觉”和“无法执行动作”的痛点。通过将推理层与执行层解耦,Iberdrola能够将非结构化的自然语言请求转化为结构化的ITIL流程(如事件管理、变更请求)。这是企业级AI落地的关键一步,即从“聊天机器人”转变为“数字员工”。
垂直领域大模型的私有化部署逻辑
- [事实陈述] 合作伙伴是AWS,平台是ServiceNow,对象是Utility公司。
- [作者观点] 能源行业作为关键基础设施,对数据主权极其敏感。Iberdrola选择Bedrock而非直接调用OpenAI等公有云API,核心在于Bedrock提供的“数据不离开客户VPC”的安全控制能力以及通过AgentCore对模型行为的“护栏”管理。
- [深度分析] 这反映了大型传统企业(Fortune 500级别)在AI落地时的典型路径:不追求训练自己的基座模型,而是通过精细的提示工程和上下文管理,利用通用大模型解决特定领域问题。 这种“中间层”策略(AgentCore作为中间层)是目前性价比最高且风险可控的方案。
ServiceNow作为企业级操作系统的地位强化
- [事实陈述] 应用场景集中在ServiceNow的IT运营优化。
- [你的推断] ServiceNow不再仅仅是工作流记录系统,正在演变为“企业智能体执行层”。
- [深度分析] Iberdrola的案例表明,未来的IT运维不再是人在操作ServiceNow控制台,而是AI Agent直接操作ServiceNow API。这将彻底改变ITSM(IT服务管理)的人员结构,L1(一级)支持团队将面临大规模缩减或转型,迫使IT人员向“AI训练师”或“复杂异常处理者”转变。
反例与边界条件:
成本与延迟的隐形陷阱
- [边界条件] 文章未提及成本。多智能体架构意味着每一次推理都可能涉及多次LLM调用(规划-行动-观察-反思)。对于高频、低延迟要求的IT监控场景,Token消耗成本和推理延迟可能会比传统脚本高出一个数量级。如果Iberdrola仅将其用于“复杂流程优化”则可行,若用于“实时告警处理”则可能面临性能瓶颈。
确定性与黑盒风险的博弈
- [反例观点] 尽管AgentCore提供了编排能力,但底层大模型仍具有概率性特征。在涉及电网调度指令或核心生产系统变更时,仅仅依靠Agent的“反思”机制可能无法满足工业级的安全性要求。传统基于确定性逻辑的自动化在核心生产环节依然不可替代。
可验证的检查方式:
指标验证:
- MTTR(平均修复时间): 观察实施AgentCore后,Iberdrola非L1复杂工单的解决时间缩短比例。如果该指标未显著下降,说明Agent仅停留在聊天层面,未实现真正的自动化闭环。
- 自动化率: 统计完全由AI Agent端到端解决且无需人工介入的工单百分比。
实验/观察窗口:
- 幻觉率测试: 在测试环境中输入涉及ServiceNow API不存在的参数或复杂逻辑冲突的请求,观察Agent是否会尝试伪造API调用或陷入死循环。
- Token消耗监控: 监控单个工单处理的平均Token消耗量,以评估其经济性是否优于传统人工操作。
综合评价:
- 内容深度与严谨性(4/5): 文章作为案例研究,清晰展示了技术栈和业务场景,但缺乏具体的量化ROI数据和技术实现的深层细节(如Prompt策略、数据清洗流程)。
- 实用价值(4.5/5): 对于正在寻求将GenAI引入企业工作流(特别是ServiceNow生态)的CIO和架构师具有极高的参考价值,提供了一套经过验证的架构模式。
- 创新性(4/5): 将Agent架构应用于传统且保守的能源行业IT运维,具有很好的示范意义,虽然技术本身是Bedrock的通用能力,但场景结合具有创新性。
- 可读性(5/5): 结构清晰,逻辑顺畅,技术术语使用准确。
- 行业影响: 该案例可能成为“传统行业+GenAI”的标杆,推动更多公用事业公司从观望转向试点,特别是加速ServiceNow平台上的AI插件生态发展。
实际应用建议:
对于类似
技术分析
基于您提供的文章标题和摘要,虽然原文内容被截断,但结合Iberdrola(伊维尔德罗拉)作为全球最大公用事业公司之一的背景,以及AWS Amazon Bedrock AgentCore和ServiceNow的技术特性,我们可以对该案例进行深度的技术还原与战略分析。
以下是对该案例的全面深入分析:
1. 核心观点深度解读
主要观点
文章的核心观点是:传统的大型企业IT运维(IT Operations)正在从“脚本化、被动响应”模式向“智能化、代理驱动”模式转型。 Iberdrola通过AWS的Amazon Bedrock AgentCore,在ServiceNow平台上构建了多智能体架构,实现了IT运维流程的自动化与决策增强。
核心思想
作者试图传达**“Agentic AI(智能体AI)在垂直领域落地的成熟度”**。这不再是简单的聊天机器人,而是具备规划、记忆和工具调用能力的智能体系统。核心在于将生成式AI的“理解能力”转化为IT运维的“行动能力”。
创新性与深度
- 从辅助到自主: 创新点在于从Copilot(副驾驶)进化到Agent(智能体)。系统不仅能回答问题,还能代表用户执行复杂的ServiceNow工作流(如自动创建工单、分配资源、查询日志)。
- 架构解耦: 使用AgentCore作为中间层,实现了大模型(LLM)与企业业务逻辑的解耦,使得模型可以灵活切换而不影响底层流程。
重要性
对于像Iberdrola这样的资产密集型企业,IT系统的稳定性直接关系到电网的稳定性。这种转型能够显著降低MTTR(平均修复时间),减少人为错误,并释放IT人员的精力用于创新而非重复劳动。
2. 关键技术要点
涉及的关键技术
- Amazon Bedrock AgentCore: 这是AWS提供的全托管智能体构建框架。它负责处理LLM的上下文管理、提示词链编排以及API调用逻辑。
- ServiceNow (ITSM/ITOM): 作为IT服务管理的单一数据源和执行平台。
- Agentic Patterns(代理模式): 特别是Multi-Agent System(多智能体系统),即不同的Agent负责不同的任务(如一个负责查询知识库,一个负责执行API,一个负责审核)。
- RAG (Retrieval-Augmented Generation): 检索增强生成,用于查询Iberdrola内部的私有运维文档和历史工单数据。
技术原理与实现
- 规划与推理: 当用户提出“服务器响应慢”时,AgentCore利用LLM的推理能力,将任务分解为:检查日志 -> 分析指标 -> 对比历史工单 -> 提出解决方案。
- 工具调用: Agent通过API接口与ServiceNow交互。例如,调用
Table API查询 incident 表,或通过Flow Designer触发自动化修复脚本。 - 人机协同: 对于高风险操作(如重启服务器),Agent不会直接执行,而是生成方案并请求人工批准,确保安全。
技术难点与解决方案
- 难点:幻觉风险。 LLM可能会生成不存在的API参数。
- 方案: 使用AgentCore的**Guardrails(护栏机制)**和严格的Schema定义,强制LLM只能调用预定义的、经过验证的API。
- 难点:数据隐私。 敏感运维数据不能直接发送给公有云模型。
- 方案: 利用Bedrock的VPC接口和加密传输,确保数据在传输过程中的安全,并可能使用私有部署的模型或通过Redshift查询数据而不直接暴露原始文本。
技术创新点
“Context-Aware Routing”(上下文感知路由)。系统不仅仅是理解文本,而是根据ServiceNow中的CMDB(配置管理数据库)上下文来动态调整Agent的行为。例如,针对“核电站区域的服务器”和“办公区域的服务器”,Agent会调用完全不同的安全协议流程。
3. 实际应用价值
指导意义
该案例证明了生成式AI在企业级B2B场景中的价值不在于“生成内容”,而在于“流程自动化”。它为其他拥有复杂IT环境的企业提供了一条清晰的升级路径。
应用场景
- L1/L2 级运维自动化: 自动处理密码重置、软件安装请求等低级别工单。
- 故障根因分析(RCA): 自动整合CloudWatch监控数据和告警日志,生成事故报告。
- 知识库管理: 自动从解决过的工单中提取知识,更新ServiceNow知识库,实现知识闭环。
- 合规性检查: Agent自动扫描IT配置是否符合行业合规标准(如ISO 27001)。
需要注意的问题
- 权限控制: 必须确保Agent继承用户的权限模型,防止权限越界。
- 成本控制: 频繁调用LLM和长上下文处理可能带来较高的API成本,需要设计缓存机制。
4. 行业影响分析
对行业的启示
公用事业行业通常被视为技术保守型,Iberdrola的案例是一个强烈的信号:高监管、高安全要求的行业也可以安全地部署GenAI。 这将打破能源、制造等传统行业的观望态度。
可能带来的变革
IT运维团队的角色将发生转变。从“执行者”转变为“管理者”和“训练师”。SRE(站点可靠性工程师)的工作将更多是设计Agent的Prompt和验证其输出,而不是直接敲命令行。
发展趋势
“Ops for AI”与“AI for Ops”的融合。 未来不仅要用AI做运维,还需要建立一套运维体系来管理AI Agent本身的行为(如监控Agent的准确率、响应时间)。
5. 延伸思考
拓展方向
- 跨域智能体: 既然IT运维可以自动化,那么OT(运营技术,如电网设备维护)是否也可以接入同一套Agent架构?实现IT与OT的融合运维。
- 自主修复闭环: 目前的Agent可能还停留在“提供建议”,未来应向“自动修复”演进,特别是对于云资源的弹性伸缩。
待研究问题
- 多Agent博弈: 当两个Agent(如成本优化Agent和稳定性Agent)目标冲突时,如何仲裁?
- 可解释性: 当Agent自动关闭了一个服务器实例,它能否用人类易懂的逻辑解释原因?
6. 实践建议
如何应用到自己的项目
- 识别高频低风险场景: 不要一开始就试图自动化核心数据库变更。从查询报表、状态查询等只读操作开始。
- 建立“中间件”思维: 不要直接在ServiceNow中硬编码Prompt。引入类似AgentCore的编排层,作为业务层和模型层的缓冲。
- 数据治理先行: Agent的效果取决于数据质量。如果CMDB数据不准,Agent就会做出错误判断。
行动建议
- Step 1: 梳理现有的ServiceNow工作流,找出痛点。
- Step 2: 构建RAG知识库,将PDF文档、Wiki转化为向量数据。
- Step 3: 使用Bedrock或类似平台搭建PoC(概念验证),仅对少数测试用户开放。
- Step 4: 建立反馈机制,收集“Bad Case”用于微调Prompt或模型。
7. 案例分析
成功案例要素分析 (Iberdrola)
- 成功因素: 强大的合作伙伴关系(AWS + ServiceNow);清晰的业务目标(针对三个关键领域的优化);渐进式的实施策略。
- 经验总结: 不要试图用一个巨大的Agent解决所有问题。Iberdrola实施了“不同的Agentic架构”,意味着他们针对不同任务定制了不同的Agent,这种模块化思维是成功的关键。
失败案例反思 (假设性对比)
- 潜在失败模式: 某公司试图直接让ChatGPT通过SQL操作数据库。
- 失败原因: 缺乏中间层控制,导致LLM生成Drop Table等危险指令;缺乏上下文,导致查询效率低下。
- 教训: 必须使用Agent框架来限制模型的能力边界,并赋予其特定的工具,而非通用的数据库访问权。
8. 哲学与逻辑:论证地图
中心命题
大型企业应通过集成具备工具调用能力的生成式AI智能体,来重构IT运维流程,以实现效率与响应速度的质变。
支撑理由
- 效率提升: 自动化处理重复性任务可释放30%-50%的人力资源。
- 依据: 业界标准的L1运维自动化统计数据。
- 知识复用: LLM能非结构化历史数据中提取隐性知识,解决知识库“建而不用”的难题。
- 依据: RAG技术在文档检索上的表现优于传统关键词搜索。
- 决策增强: 多智能体协作能模拟专家团队的思维过程,提供多维度的故障排查建议。
- 依据: Iberdrola案例中提到的“不同架构针对不同领域”。
反例与边界条件
- 边界条件(黑天鹅事件): 面对从未发生过的、未在训练数据或文档中出现的复杂系统性故障,Agent可能会产生幻觉或无效建议,此时必须强制人工介入。
- 反例(过度自动化): 如果企业的基础数据治理(CMDB)极其混乱,Agent的输入就是垃圾,输出也是垃圾,反而会增加纠错成本。
命题性质分析
- 事实: AWS Bedrock和ServiceNow具备上述技术能力。
- 价值判断: 认为“效率”和“自动化”是IT运维的核心目标。
- 可检验预测: 实施该方案的企业,其MTTR(平均修复时间)将在6个月内下降20%以上。
立场与验证
- 立场: 坚定支持**“人机协同”的Agent模式,而非完全取代人类的“全自主”**模式。
- 验证方式: 设计A/B测试。一组使用传统ServiceNow界面,一组使用AI Agent辅助。对比两组在解决相同Mock故障时的耗时和准确率。观察窗口设定为3个月,以排除新奇效应的影响。
最佳实践
最佳实践
1. 构建基于代理的自动化运维架构
利用 Amazon Bedrock AgentCore 构建智能代理,将传统的手动 IT 运维任务转化为自动化工作流。通过自然语言处理理解运维意图,自动执行脚本或调用 API,从而减少人工干预,提高响应速度和准确性。
实施步骤:
- 识别重复性高、流程固定的任务(如工单分类、状态查询)。
- 利用 AgentCore 定义动作组,绑定后端 API 或脚本。
- 配置 NLP 模型,确保口语化指令能触发运维动作。
注意事项: 连接生产 API 时,必须实施严格的权限控制和输入验证,防止恶意滥用。
2. 利用企业知识库增强上下文理解
将现有 IT 文档、操作手册和历史工单向量化存储。通过 Amazon Bedrock 的知识库检索功能,使 AgentCore 在生成响应前引用企业内部特定的运维标准,确保回答准确。
实施步骤:
- 整理非结构化运维文档和 FAQ。
- 使用 Knowledge Base 切片文档并构建索引。
- 在 Agent 中启用检索增强生成(RAG)模式。
注意事项: 定期更新知识库,设置清晰的数据引用来源,以便验证建议符合最新政策。
3. 实施严格的治理与护栏机制
引入 Guardrails 确保代理行为符合安全合规标准。防止生成有害内容、泄露敏感信息或产生幻觉,这对能源行业尤为重要。
实施步骤:
- 定义敏感词清单和拒绝话题(如 PII、非授权代码修改)。
- 配置 Bedrock Guardrails 监控输入输出。
- 设置上下文 groundedness 检查,确保回答基于可信数据。
注意事项: 动态调整策略,定期审查拦截日志,避免过度拦截影响效率。
4. 建立人机协同的确认机制
对于高风险操作(如删除资源、重启核心服务),设计“人在回路”流程。Agent 负责准备方案,由人工确认后执行。
实施步骤:
- 对运维操作进行风险分级。
- 配置高风险操作的阻断点,要求明确指令才执行。
- 提供详细的操作预览供人工审核。
注意事项: 确保确认渠道可追溯,所有审批记录应留痕以供审计。
5. 优化提示词工程以适配专业术语
针对 IT 运维术语和特定缩写,通过精细化的 Prompt Engineering 和 Few-shot Learning 提高模型理解能力,减少歧义。
实施步骤:
- 收集典型查询案例和理想回复。
- 在系统提示词中嵌入角色定义和输出格式。
- 提供 3-5 个问答样本,教导模型处理内部术语。
注意事项: 持续迭代提示词,建议版本化管理以便快速回滚。
6. 全链路可观测性与性能监控
建立全面监控体系,跟踪响应延迟、Token 成本、检索准确率及用户满意度。
实施步骤:
- 集成 Amazon CloudWatch 监控调用日志和延迟。
- 记录用户反馈(点赞/点踩)建立微调数据集。
- 设置异常告警,通知技术团队处理频繁报错。
注意事项: 关注成本指标,通过监控 Token 使用优化 Prompt 或选择性价比模型。
学习要点
- 基于 Iberdrola 利用 Amazon Bedrock AgentCore 增强其 IT 运营的案例,以下是总结出的关键要点:
- Iberdrola 通过构建基于 Amazon Bedrock AgentCore 的生成式 AI 智能体,成功将 IT 运营中的重复性任务自动化,从而显著提升了团队的工作效率。
- 该解决方案利用 AgentCore 的编排能力无缝集成底层系统(如 ServiceNow),实现了跨系统工作流的自动化执行,有效打破了数据孤岛。
- 通过采用 Anthropic Claude 3 Sonnet 等大语言模型,企业能够在保证数据安全和隐私的前提下,利用生成式 AI 处理复杂的 IT 运营逻辑。
- 借助 Amazon Bedrock 的 Guardrails 功能,Iberdrola 实施了严格的防护措施以确保 AI 输出的准确性和适当性,降低了模型产生幻觉的风险。
- 该案例展示了如何将非结构化数据(如自然语言请求)转化为结构化的可执行动作,使 IT 员工能够通过对话界面快速获取服务状态或执行修复操作。
- 此转型实践证明了将生成式 AI 引入企业级 IT 运营(ITOps)的可行性,为其他希望利用 AI 优化内部流程的企业提供了可参考的架构蓝图。
引用
- 文章/节目: https://aws.amazon.com/blogs/machine-learning/iberdrola-enhances-it-operations-using-amazon-bedrock-agentcore
- RSS 源: https://aws.amazon.com/blogs/machine-learning/feed/
注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。
站内链接
- 分类: AI 工程 / 系统与基础设施
- 标签: Amazon Bedrock / AgentCore / ServiceNow / IT 运营 / 智能代理 / AWS / 事件管理 / 对话式 AI
- 场景: AI/ML项目