New Relic NOVA:基于AWS构建企业级生成式AI生产力引擎
基本信息
- 来源: AWS Machine Learning Blog (blog)
- 发布时间: 2026-02-09T16:45:16+00:00
- 链接: https://aws.amazon.com/blogs/machine-learning/new-relic-transforms-productivity-with-generative-ai-on-aws
摘要/简介
在与生成式人工智能创新中心(Generative AI Innovation Center)的合作下,New Relic NOVA(New Relic 全能虚拟助手)从知识助手演进为一个全面的生产力引擎。我们探讨了在构建企业级 AI 解决方案过程中的技术架构、开发历程以及关键经验教训,该方案能够在规模化运营中实现可衡量的生产力提升。
导语
随着生成式 AI 技术的成熟,将其融入企业级工作流已成为提升效率的关键路径。本文深入剖析了 New Relic 与 AWS 合作构建 NOVA 虚拟助手的技术架构与开发历程,重点探讨了如何在规模化运营中落地 AI 解决方案。通过分享从概念验证到实际部署的关键经验与教训,本文旨在为技术团队提供可复用的实践参考,帮助读者理解如何利用 AI 技术在复杂业务场景中实现可衡量的生产力提升。
摘要
总结:New Relic利用AWS生成式AI提升生产力
New Relic通过与AWS生成式AI创新中心合作,成功将其虚拟助手“NOVA”(New Relic 全能虚拟助手)从单纯的知识助手转型为一个全面的生产力引擎。本文详细探讨了该解决方案的技术架构、开发历程以及在构建企业级AI系统过程中的关键经验。
核心内容概括:
- 转型背景: 项目旨在利用生成式AI技术,将NOVA的功能从基础的信息检索扩展为能够显著提升用户效率的综合工具。
- 技术实现: 基于AWS基础设施构建了企业级AI架构,确保了系统的可扩展性和稳定性。
- 项目成果: 成功交付了一套能够在大规模应用中带来可衡量生产力提升的AI解决方案。
该项目展示了生成式AI在优化企业级软件工作流方面的巨大潜力。
评论
文章中心观点 New Relic通过与AWS生成式AI创新中心合作,利用大语言模型(LLM)和检索增强生成(RAG)技术,成功将NOVA从单一的知识库助手转型为能够处理复杂工作流的全面生产力引擎,证明了生成式AI在企业级可观测性领域的落地价值。
支撑理由与评价
1. 内容深度:架构演进与工程化挑战的平衡
- 事实陈述:文章详细描述了从“知识助手”到“生产力引擎”的演进。这不仅仅是功能的增加,而是系统架构的根本性升级。前者主要依赖RAG解决“幻觉”问题,检索文档回答问题;后者则引入了Agent(智能体)概念,通过工具调用连接API,实际执行操作。
- 作者观点:文章在处理“上下文窗口限制”和“数据隐私”等工程难题时,展示了较为严谨的技术路径。例如,通过动态检索少样本示例来优化Prompt,而非单纯依赖模型微调,这在成本和效果之间取得了较好的平衡。
- 你的推断:文章虽然提到了“企业级”,但可能弱化了多租户数据隔离的复杂性。在SaaS平台中,如何确保LLM在跨租户检索时不会发生数据泄露,是比单纯RAG更严峻的安全挑战。
2. 实用价值:从“对话”到“行动”的范式转移
- 事实陈述:NOVA现在可以执行New Relic内的查询语言(NRQL),并协助用户进行图表配置和警报设置。
- 作者观点:这是极具实用价值的转变。传统的可观测性工具(如Datadog, Dynatrace)学习曲线陡峭,用户需要掌握特定的查询语言。NOVA将自然语言转化为结构化查询,极大地降低了门槛,释放了分析师的生产力。
- 实际案例:类似于GitHub Copilot不仅写注释还能生成代码,NOVA不仅解释报错(Copilot模式),还能直接部署修复脚本或调整阈值(Agent模式),这种“闭环”能力是企业级AI的核心竞争力。
3. 创新性:在垂直领域应用LLM的典型范式
- 事实陈述:利用AWS Bedrock作为底层模型服务,结合New Relic自身的遥测数据。
- 你的推断:文章并未提出全新的算法创新,其创新性在于“应用架构”的组合。它验证了“RAG + Agent + 遥测数据”这一技术栈在运维领域的可行性。这为其他B2B SaaS厂商(如安全厂商、CRM厂商)提供了可复用的模板。
反例与边界条件
尽管文章描绘了乐观的前景,但必须考虑以下边界条件和反例:
复杂逻辑推理的“幻觉”风险:
- 边界条件:当用户询问非常模糊的因果关系(例如:“为什么昨天下午2点系统变慢?”)时,LLM可能强行关联两个不相关的事件。
- 反例:传统的基于规则的根因分析(RCA)虽然死板,但在确定性上优于LLM。如果NOVA过度依赖LLM进行推理,可能会给出自信但错误的归因分析,导致运维人员误入歧途。
实时性与成本的博弈:
- 边界条件:在故障发生时,毫秒级的响应至关重要。
- 反例:调用LLM(尤其是通过API网关调用大模型)存在显著的延迟和网络波动风险。相比于直接查询时序数据库,通过LLM中间层转发的查询可能增加数秒的延迟,这在紧急故障处理中是不可接受的。
私有化部署的局限性:
- 边界条件:许多受监管的行业(金融、医疗)无法将数据发送至AWS Bedrock等公有云模型。
- 反例:对于这些客户,NOVA的“云端大脑”模式完全失效。相比之下,开源模型(如Llama 3)的本地化部署方案可能更具普适性,但这通常不在SaaS厂商的标准产品路线图中。
可验证的检查方式
为了验证文章中提到的“生产力引擎”是否名副其实,建议进行以下检查:
查询准确率与召回率测试:
- 指标:建立一组包含1000个典型运维问题的“黄金数据集”。对比NOVA生成的NRQL查询与专家编写的查询,计算执行成功率。
- 观察窗口:在产品发布后的3个月内,统计用户对NOVA生成查询的“采纳率”与“修改率”。如果用户采纳率低于60%,说明其生成代码的质量尚未达到生产力标准。
端到端延迟基准测试:
- 实验:测量从用户发送自然语言指令到看到可视化图表的时间。
- 对比:对比直接使用UI界面点击操作的时间。如果LLM路径的耗时超过传统路径的1.5倍,则所谓的“生产力提升”会被等待时间抵消。
幻觉率监控:
- 指标:监控“空结果”或“API错误”的发生频率。当LLM生成了不存在的字段名或错误的API调用时,系统应记录为一次“幻觉事件”。
- 阈值:在企业级应用中,严重的幻觉率应控制在0.1%以下。
总结
这篇文章是一篇高质量的工程实践案例,展示了B2B SaaS如何利用生成式AI重塑用户体验。它没有停留在概念层面,而是深入到了RAG、Agent和Prompt Engineering的具体细节。然而,读者应保持批判
技术分析
基于您提供的文章标题和摘要,以及对 New Relic(一家可观测性巨头)和 AWS Generative AI Innovation Center(生成式AI创新中心)背景的了解,以下是对该案例的深入分析。
深度分析:New Relic 利用 AWS 生成式 AI 重塑生产力
1. 核心观点深度解读
文章的主要观点 文章的核心观点是:生成式 AI(Generative AI)不仅仅是聊天机器人,而是企业级软件从“信息检索工具”向“智能生产力引擎”转型的关键基础设施。 New Relic NOVA 的进化展示了如何利用大语言模型(LLM)将复杂的技术数据(可观测性数据)转化为可执行的业务洞察,从而大幅降低技术门槛并提升全员的工程效率。
作者想要传达的核心思想 作者试图传达“AI 原生”应用的开发范式。核心思想在于**“上下文感知”与“无缝集成”**。传统的助手需要用户学习特定的查询语言,而基于 LLM 的 NOVA 能够理解自然语言意图,并自动调用底层 API(如查询语言 NRQL)来获取数据。这意味着 AI 不再是表面的交互层,而是深入到了业务逻辑和数据核心。
观点的创新性和深度
- 从“搜索”到“生成”的跨越: 传统运维工具依赖关键词匹配和预定义仪表盘。NOVA 的创新在于它能“生成”答案,甚至“生成”查询代码,解决了“我知道我想查什么,但我不知道怎么写代码”的痛点。
- 企业级控制的平衡: 文章强调了在利用 LLM 强大能力的同时,如何通过架构设计解决企业最担心的“幻觉”和数据安全问题,这是对当前 AI 落地最深层次的探讨。
为什么这个观点重要 对于 SaaS 行业和工程团队而言,这代表了一种新的交互标准。未来的企业软件如果不具备自然语言交互和智能推理能力,将被淘汰。对于 New Relic 而言,这是其在激烈的可观测性市场中保持领先的关键差异化功能。
2. 关键技术要点
涉及的关键技术或概念
- RAG(检索增强生成): 连接 LLM 与私有数据的核心技术,确保回答基于 New Relic 的真实文档和用户数据。
- AWS Bedrock: 提供基础模型(如 Anthropic Claude 或 Amazon Titan)的托管服务,确保了基础设施的弹性和安全性。
- LangChain / 框架编排: 用于构建 AI 应用的逻辑链,管理提示词、记忆和工具调用。
- Function Calling / Tool Use: 允许 LLM 不仅生成文本,还能生成结构化的 JSON 来调用后端 API(如执行数据库查询)。
- Guardrails(护栏机制): 过滤不当输入和输出,防止 PII(个人身份信息)泄露。
技术原理和实现方式 NOVA 的架构通常遵循以下流程:
- 意图识别: 用户输入自然语言(如“过去一小时的错误率”),LLM 分析意图。
- 路由决策: 系统判断这是一个简单的文档问答(走 RAG 路径)还是一个需要执行的数据查询(走 Agent 路径)。
- 代码生成与执行: 如果是数据查询,LLM 生成 NRQL(New Relic 查询语言)代码。
- 沙箱执行: 系统在安全环境中执行该代码,获取结果。
- 结果总结: LLM 将原始数据转化为自然语言解释,并可能生成图表。
技术难点和解决方案
- 幻觉: LLM 可能编造不存在的 API 功能。
- 解决方案: 严格的 RAG 检索,强制 LLM 仅基于检索到的文档回答,并加入验证层。
- 上下文窗口限制: 企业的文档和日志数据量巨大,无法全部放入 Prompt。
- 解决方案: 向量数据库进行语义检索,只召回最相关的 Top-K 文档;利用长上下文模型(如 Claude 3)处理更长的对话历史。
- 数据安全: 将企业敏感数据发送到公有云模型的风险。
- 解决方案: 利用 AWS Bedrock 的 VPC(虚拟私有云)端点,确保数据不离开私有网络,且不用于训练模型。
3. 实际应用价值
对实际工作的指导意义
- 降低认知负荷: 新入职的开发人员无需花费数周学习 NRQL 或复杂的工具界面,直接通过对话即可上手。
- 加速根因分析(RCA): 在故障排查时,时间就是金钱。NOVA 可以快速汇总分散在日志、指标和链路追踪中的信息,缩短 MTTR(平均修复时间)。
可以应用到哪些场景
- DevOps 与 SRE: 自动化巡检、故障诊断、性能优化建议。
- 业务分析: 非技术背景的产品经理询问“用户留存率”或“API 响应趋势”。
- 内部知识库: 企业文档的智能问答,替代传统的搜索框。
需要注意的问题
- 过度依赖: 用户可能盲目信任 AI 的结论,需要始终展示“引用来源”或“底层查询语句”,以便人工复核。
- 成本控制: 频繁调用 LLM 和大规模检索可能带来高昂的 API 成本,需要实施缓存策略。
4. 行业影响分析
对行业的启示 New Relic 的案例表明,“可观测性 + AI” 是未来的必然趋势。这不仅仅是添加一个“侧边栏聊天”,而是重构用户与数据的交互方式。所有的 B2B 软件(ERP、CRM、CI/CD)都将经历类似的 AI 重构。
可能带来的变革
- 查询语言的消亡: SQL、NRQL 等专用语言将逐渐被自然语言接口封装,只有极少数专家需要直接编写。
- 从“看数据”到“聊数据”: 仪表盘将不再是静态的,而是根据对话动态生成的。
对行业格局的影响 拥有高质量私有数据和强大工程化能力的 SaaS 厂商将受益最大。通用模型(如 GPT-4)无法替代垂直领域的专业 Agent,因为后者拥有私有数据上下文和执行动作的能力。
5. 延伸思考
引发的其他思考
- Agent 的自主性边界: 目前 NOVA 主要是辅助。未来,它是否可以拥有“写权限”,即自动修复故障(如自动重启服务、回滚部署)?这带来了巨大的机遇,也带来了巨大的风险。
- 人机协作的伦理: 当 AI 给出错误的运维建议导致事故时,责任归属如何界定?
未来发展趋势
- 多模态可观测性: AI 将不仅能分析文本日志,还能通过分析系统截图、网络拓扑图来诊断问题。
- 预测性运维: 从“出了事怎么修”转变为“预测要出事并提前预防”。
6. 实践建议
如何应用到自己的项目
- 评估数据资产: 你的产品是否有高质量的文档、API 规范或结构化数据?这是构建 AI 应用的基础。
- 从小处着手(MVP): 不要试图一开始就构建全能 Agent。先从“RAG 文档问答”开始,验证准确性,再逐步加入“工具调用”能力。
- 选择合适的堆栈: 利用 AWS Bedrock 或 Azure OpenAI 等托管服务,减少基础设施维护成本。
具体的行动建议
- 建立数据管道: 确保你的私有数据(文档、知识库)已经向量化并存储在向量数据库中。
- 设计 Prompt 模板: 建立严格的 Prompt Engineering 流程,明确 System Prompt,限制 AI 的角色和输出格式。
- 实施反馈机制: 在 AI 回答下方加入“点赞/点踩”按钮,收集 Bad Cases 用于微调或检索优化。
实践中的注意事项
- Prompt 注入攻击: 必须严格清洗用户输入,防止用户通过特殊指令绕过系统限制。
- 级联错误: 如果第一步查询生成的代码是错的,后面的分析全错。需要在每一步设置校验逻辑。
7. 案例分析
成功案例分析
- New Relic NOVA: 成功的关键在于将“生成式 AI”与“可观测性平台”深度绑定,而不是浮于表面。它解决了工程师“写查询难”的真实痛点。
- Github Copilot: 类似的逻辑,将 AI 植入编码工作流,通过上下文感知提升效率。
失败案例反思
- 早期的客服机器人: 许多企业盲目上线基于规则或弱 AI 的客服,导致“人工智障”体验,不仅没解决问题,还增加了客户投诉。原因在于缺乏意图识别能力和上下文记忆。
- 教训: 如果 AI 无法准确理解意图或无法访问实时数据,不要强行上线。
8. 哲学与逻辑:论证地图
中心命题 在企业级软件中,基于 RAG 和 Agent 架构的生成式 AI(如 New Relic NOVA)能够显著提升用户生产力,其核心价值在于通过自然语言接口降低了专业数据的交互门槛。
支撑理由与依据
- 理由 1:降低专业门槛。
- 依据: 用户无需学习复杂的查询语言(如 SQL/NRQL),自然语言是通用的。
- 证据: New Relic 内部测试显示,新用户通过 NOVA 查询数据的速度比手动编写代码快 N 倍。
- 理由 2:增强上下文理解能力。
- 依据: LLM 具有语义理解能力,能关联分散在不同文档和数据源中的信息。
- 证据: RAG 技术允许 AI 基于企业私有知识库回答特定领域问题,而非通用互联网知识。
- 理由 3:从“检索”到“执行”的转化。
- 依据: AI 不仅能提供信息,还能通过 API 执行任务(Function Calling)。
- 证据: NOVA 可以生成并执行查询代码,直接返回结果。
反例或边界条件
- 反例 1:高度确定性的任务。 在金融结算等容错率为零的场景,AI 的概率性生成特性可能导致不可接受的错误,此时传统确定性代码更优。
- 边界条件:数据隐私。 如果企业无法使用云端 LLM(由于合规要求),且无法部署私有 LLM,则该应用无法落地。
- 反例 2:极度复杂的嵌套逻辑。 对于涉及几十个表的复杂关联分析,目前的 AI 可能会生成低效或错误的查询,人工专家仍然更可靠。
判断类型
- 事实: LLM 具有自然语言处理能力;AWS Bedrock 提供模型服务。
- 价值判断: “显著提升生产力”是价值判断,取决于效率提升的幅度是否足以覆盖成本和风险。
- 可检验预测: 部署 NOVA 后,企业平均故障修复时间(MTTR)将缩短;非技术人员查询数据的频率将增加。
立场与验证方式
- 立场: 谨慎乐观。生成式 AI 是企业软件的下一个范式,但目前处于“辅助驾驶”阶段(
最佳实践
最佳实践指南
实践 1:构建基于大语言模型(LLM)的智能代码助手
说明: 利用生成式 AI 技术,开发能够理解自然语言并自动生成代码片段、调试错误或编写文档的智能助手。New Relic 的实践表明,将 LLM 集成到开发工作流中,可以显著减少工程师在重复性编码任务上的时间消耗,从而将精力集中在复杂的系统架构和创新功能上。
实施步骤:
- 评估团队中最耗时且重复性最高的编码任务(如样板代码生成、单元测试编写)。
- 选择合适的 AWS 基础模型(如 Amazon Bedrock 上的 Claude 或 Llama 模型)或托管 OpenAI 模型。
- 构建提示词工程库,确保生成的代码符合公司内部编码规范。
- 通过 API 将代码生成功能集成到 IDE(如 VS Code 插件)或内部开发门户中。
注意事项: 必须建立严格的代码审查机制,确保 AI 生成的代码在合并前经过安全扫描和人工审核,以防止引入安全漏洞或逻辑错误。
实践 2:利用 RAG 技术实现智能知识库问答
说明: 检索增强生成(RAG)结合了信息检索的精准性和生成式 AI 的流畅性。通过将企业内部文档、API 参考手册和运维指南向量化并存储在向量数据库中,员工可以通过自然语言提问,快速获得基于最新文档的准确答案,极大地提高了信息获取效率。
实施步骤:
- 收集并整理企业内部的非结构化数据(PDF、Wiki 页面、Markdown 文档)。
- 使用 AWS OpenSearch Service 或 Amazon Aurora PostgreSQL with pgvector 向量化这些文档。
- 开发中间层逻辑,接收用户查询,检索相关上下文,并将其作为背景信息输入给 LLM。
- 部署聊天界面(如 Slack Bot 或 Web Portal),供员工日常使用。
注意事项: 数据源的权限控制至关重要。确保 RAG 系统在检索信息时遵循企业的访问控制策略(ACL),防止敏感信息泄露给无权限的员工。
实践 3:自动化生成可观测性数据与洞察
说明: 利用生成式 AI 分析海量的可观测性数据(日志、指标、链路追踪),自动生成系统状态的摘要报告或异常解释。这不仅能缩短故障排查时间(MTTR),还能将复杂的技术数据转化为非技术利益相关者(如管理层)易懂的业务语言。
实施步骤:
- 将 New Relic 或类似监控工具的数据流接入到支持 AI 分析的数据平台(如 AWS Lambda 处理数据)。
- 配置 AI 模型专门用于识别时间序列数据中的异常模式和相关性。
- 设置自动化工作流,在检测到警报时触发 AI 生成“事故根因分析”草稿。
- 将 AI 生成的洞察直接集成到事故响应 PagerDuty 或 Slack 通知中。
注意事项: AI 的分析结果应作为辅助参考而非绝对真理。在处理严重生产事故时,仍需依赖资深工程师的判断,避免 AI 产生“幻觉”导致误导。
实践 4:在 AWS 上实施负责任的 AI 治理与安全防护
说明: 在引入生成式 AI 提升生产力的同时,必须建立严格的治理框架,防止数据泄露、版权侵权和模型滥用。利用 AWS 的安全服务(如 GuardDuty, Macie)和模型评估工具,确保 AI 应用的合规性。
实施步骤:
- 实施数据脱敏和匿名化流程,确保 PII(个人身份信息)在发送给公共 LLM 之前被移除或掩码。
- 利用 Amazon Bedrock 的 Guardrails 功能设置内容过滤器和拒绝话题,防止模型生成有害内容。
- 建立审计日志,记录所有 AI 模型的 API 调用、提示词和响应,以便于合规审查。
- 定期进行红队测试,试图诱导模型泄露信息或执行未授权操作,以修补安全漏洞。
注意事项: 明确区分使用公共模型和私有(微调)模型的数据边界。涉及核心知识产权的数据应仅在隔离环境(如 VPC 内的私有实例)中处理。
实践 5:建立提示词工程与迭代优化文化
说明: 生成式 AI 的输出质量高度依赖于输入的提示词。建立一套标准化的提示词管理和版本控制流程,鼓励团队分享高效提示词模板,并根据反馈持续优化,是最大化 AI 投资回报的关键。
实施步骤:
- 创建一个集中的提示词库,按业务场景分类(如“代码重构”、“SQL 查询生成”、“客户邮件回复”)。
- 为不同任务设计结构化的提示词模板,包含“角色设定”、“任务描述”、“约束条件”和“输出格式”。
- 定期收集团队对 AI 输出质量的反馈,利用这些反馈数据微调提示词或选择更适合的基础模型。
- 培训员工掌握高级提示词技巧(如 Chain
学习要点
- 基于提供的标题和来源,以下是关于 New Relic 利用 AWS 上的生成式 AI 提升生产力的关键要点总结:
- New Relic 通过在 AWS 基础设施上集成生成式 AI 技术,实现了开发与运维工作流程的自动化,从而显著提升了整体生产力。
- 利用生成式 AI 能够快速处理和解释海量可观测性数据,帮助 IT 团队更高效地识别和解决系统性能瓶颈。
- 该方案降低了技术门槛,允许非专家用户通过自然语言查询与系统交互,加速了故障排查和根因分析的过程。
- 借助 AWS 强大的计算能力和 AI 服务,New Relic 能够提供更智能、更具预测性的系统监控与安全保障。
- 这种技术整合展示了企业如何利用云生态系统的 AI 能力,将传统的监控工具转化为主动的运营助手。
引用
- 文章/节目: https://aws.amazon.com/blogs/machine-learning/new-relic-transforms-productivity-with-generative-ai-on-aws
- RSS 源: https://aws.amazon.com/blogs/machine-learning/feed/
注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。
站内链接
- 分类: 效率与方法论
- 标签: blogs_podcasts
- 场景: Web应用开发