New Relic NOVA:基于AWS构建企业级生成式AI生产力引擎


基本信息


摘要/简介

在与生成式人工智能创新中心(Generative AI Innovation Center)的合作下,New Relic NOVA(New Relic 全能虚拟助手)从知识助手演进为一个全面的生产力引擎。我们探讨了在构建企业级 AI 解决方案过程中的技术架构、开发历程以及关键经验教训,该方案能够在规模化运营中实现可衡量的生产力提升。


导语

随着生成式 AI 技术的成熟,将其融入企业级工作流已成为提升效率的关键路径。本文深入剖析了 New Relic 与 AWS 合作构建 NOVA 虚拟助手的技术架构与开发历程,重点探讨了如何在规模化运营中落地 AI 解决方案。通过分享从概念验证到实际部署的关键经验与教训,本文旨在为技术团队提供可复用的实践参考,帮助读者理解如何利用 AI 技术在复杂业务场景中实现可衡量的生产力提升。


摘要

总结:New Relic利用AWS生成式AI提升生产力

New Relic通过与AWS生成式AI创新中心合作,成功将其虚拟助手“NOVA”(New Relic 全能虚拟助手)从单纯的知识助手转型为一个全面的生产力引擎。本文详细探讨了该解决方案的技术架构、开发历程以及在构建企业级AI系统过程中的关键经验。

核心内容概括:

  1. 转型背景: 项目旨在利用生成式AI技术,将NOVA的功能从基础的信息检索扩展为能够显著提升用户效率的综合工具。
  2. 技术实现: 基于AWS基础设施构建了企业级AI架构,确保了系统的可扩展性和稳定性。
  3. 项目成果: 成功交付了一套能够在大规模应用中带来可衡量生产力提升的AI解决方案。

该项目展示了生成式AI在优化企业级软件工作流方面的巨大潜力。


评论

文章中心观点 New Relic通过与AWS生成式AI创新中心合作,利用大语言模型(LLM)和检索增强生成(RAG)技术,成功将NOVA从单一的知识库助手转型为能够处理复杂工作流的全面生产力引擎,证明了生成式AI在企业级可观测性领域的落地价值。

支撑理由与评价

1. 内容深度:架构演进与工程化挑战的平衡

  • 事实陈述:文章详细描述了从“知识助手”到“生产力引擎”的演进。这不仅仅是功能的增加,而是系统架构的根本性升级。前者主要依赖RAG解决“幻觉”问题,检索文档回答问题;后者则引入了Agent(智能体)概念,通过工具调用连接API,实际执行操作。
  • 作者观点:文章在处理“上下文窗口限制”和“数据隐私”等工程难题时,展示了较为严谨的技术路径。例如,通过动态检索少样本示例来优化Prompt,而非单纯依赖模型微调,这在成本和效果之间取得了较好的平衡。
  • 你的推断:文章虽然提到了“企业级”,但可能弱化了多租户数据隔离的复杂性。在SaaS平台中,如何确保LLM在跨租户检索时不会发生数据泄露,是比单纯RAG更严峻的安全挑战。

2. 实用价值:从“对话”到“行动”的范式转移

  • 事实陈述:NOVA现在可以执行New Relic内的查询语言(NRQL),并协助用户进行图表配置和警报设置。
  • 作者观点:这是极具实用价值的转变。传统的可观测性工具(如Datadog, Dynatrace)学习曲线陡峭,用户需要掌握特定的查询语言。NOVA将自然语言转化为结构化查询,极大地降低了门槛,释放了分析师的生产力。
  • 实际案例:类似于GitHub Copilot不仅写注释还能生成代码,NOVA不仅解释报错(Copilot模式),还能直接部署修复脚本或调整阈值(Agent模式),这种“闭环”能力是企业级AI的核心竞争力。

3. 创新性:在垂直领域应用LLM的典型范式

  • 事实陈述:利用AWS Bedrock作为底层模型服务,结合New Relic自身的遥测数据。
  • 你的推断:文章并未提出全新的算法创新,其创新性在于“应用架构”的组合。它验证了“RAG + Agent + 遥测数据”这一技术栈在运维领域的可行性。这为其他B2B SaaS厂商(如安全厂商、CRM厂商)提供了可复用的模板。

反例与边界条件

尽管文章描绘了乐观的前景,但必须考虑以下边界条件和反例:

  1. 复杂逻辑推理的“幻觉”风险

    • 边界条件:当用户询问非常模糊的因果关系(例如:“为什么昨天下午2点系统变慢?”)时,LLM可能强行关联两个不相关的事件。
    • 反例:传统的基于规则的根因分析(RCA)虽然死板,但在确定性上优于LLM。如果NOVA过度依赖LLM进行推理,可能会给出自信但错误的归因分析,导致运维人员误入歧途。
  2. 实时性与成本的博弈

    • 边界条件:在故障发生时,毫秒级的响应至关重要。
    • 反例:调用LLM(尤其是通过API网关调用大模型)存在显著的延迟和网络波动风险。相比于直接查询时序数据库,通过LLM中间层转发的查询可能增加数秒的延迟,这在紧急故障处理中是不可接受的。
  3. 私有化部署的局限性

    • 边界条件:许多受监管的行业(金融、医疗)无法将数据发送至AWS Bedrock等公有云模型。
    • 反例:对于这些客户,NOVA的“云端大脑”模式完全失效。相比之下,开源模型(如Llama 3)的本地化部署方案可能更具普适性,但这通常不在SaaS厂商的标准产品路线图中。

可验证的检查方式

为了验证文章中提到的“生产力引擎”是否名副其实,建议进行以下检查:

  1. 查询准确率与召回率测试

    • 指标:建立一组包含1000个典型运维问题的“黄金数据集”。对比NOVA生成的NRQL查询与专家编写的查询,计算执行成功率。
    • 观察窗口:在产品发布后的3个月内,统计用户对NOVA生成查询的“采纳率”与“修改率”。如果用户采纳率低于60%,说明其生成代码的质量尚未达到生产力标准。
  2. 端到端延迟基准测试

    • 实验:测量从用户发送自然语言指令到看到可视化图表的时间。
    • 对比:对比直接使用UI界面点击操作的时间。如果LLM路径的耗时超过传统路径的1.5倍,则所谓的“生产力提升”会被等待时间抵消。
  3. 幻觉率监控

    • 指标:监控“空结果”或“API错误”的发生频率。当LLM生成了不存在的字段名或错误的API调用时,系统应记录为一次“幻觉事件”。
    • 阈值:在企业级应用中,严重的幻觉率应控制在0.1%以下。

总结

这篇文章是一篇高质量的工程实践案例,展示了B2B SaaS如何利用生成式AI重塑用户体验。它没有停留在概念层面,而是深入到了RAG、Agent和Prompt Engineering的具体细节。然而,读者应保持批判


技术分析

基于您提供的文章标题和摘要,以及对 New Relic(一家可观测性巨头)和 AWS Generative AI Innovation Center(生成式AI创新中心)背景的了解,以下是对该案例的深入分析。


深度分析:New Relic 利用 AWS 生成式 AI 重塑生产力

1. 核心观点深度解读

文章的主要观点 文章的核心观点是:生成式 AI(Generative AI)不仅仅是聊天机器人,而是企业级软件从“信息检索工具”向“智能生产力引擎”转型的关键基础设施。 New Relic NOVA 的进化展示了如何利用大语言模型(LLM)将复杂的技术数据(可观测性数据)转化为可执行的业务洞察,从而大幅降低技术门槛并提升全员的工程效率。

作者想要传达的核心思想 作者试图传达“AI 原生”应用的开发范式。核心思想在于**“上下文感知”与“无缝集成”**。传统的助手需要用户学习特定的查询语言,而基于 LLM 的 NOVA 能够理解自然语言意图,并自动调用底层 API(如查询语言 NRQL)来获取数据。这意味着 AI 不再是表面的交互层,而是深入到了业务逻辑和数据核心。

观点的创新性和深度

  • 从“搜索”到“生成”的跨越: 传统运维工具依赖关键词匹配和预定义仪表盘。NOVA 的创新在于它能“生成”答案,甚至“生成”查询代码,解决了“我知道我想查什么,但我不知道怎么写代码”的痛点。
  • 企业级控制的平衡: 文章强调了在利用 LLM 强大能力的同时,如何通过架构设计解决企业最担心的“幻觉”和数据安全问题,这是对当前 AI 落地最深层次的探讨。

为什么这个观点重要 对于 SaaS 行业和工程团队而言,这代表了一种新的交互标准。未来的企业软件如果不具备自然语言交互和智能推理能力,将被淘汰。对于 New Relic 而言,这是其在激烈的可观测性市场中保持领先的关键差异化功能。

2. 关键技术要点

涉及的关键技术或概念

  • RAG(检索增强生成): 连接 LLM 与私有数据的核心技术,确保回答基于 New Relic 的真实文档和用户数据。
  • AWS Bedrock: 提供基础模型(如 Anthropic Claude 或 Amazon Titan)的托管服务,确保了基础设施的弹性和安全性。
  • LangChain / 框架编排: 用于构建 AI 应用的逻辑链,管理提示词、记忆和工具调用。
  • Function Calling / Tool Use: 允许 LLM 不仅生成文本,还能生成结构化的 JSON 来调用后端 API(如执行数据库查询)。
  • Guardrails(护栏机制): 过滤不当输入和输出,防止 PII(个人身份信息)泄露。

技术原理和实现方式 NOVA 的架构通常遵循以下流程:

  1. 意图识别: 用户输入自然语言(如“过去一小时的错误率”),LLM 分析意图。
  2. 路由决策: 系统判断这是一个简单的文档问答(走 RAG 路径)还是一个需要执行的数据查询(走 Agent 路径)。
  3. 代码生成与执行: 如果是数据查询,LLM 生成 NRQL(New Relic 查询语言)代码。
  4. 沙箱执行: 系统在安全环境中执行该代码,获取结果。
  5. 结果总结: LLM 将原始数据转化为自然语言解释,并可能生成图表。

技术难点和解决方案

  • 幻觉: LLM 可能编造不存在的 API 功能。
    • 解决方案: 严格的 RAG 检索,强制 LLM 仅基于检索到的文档回答,并加入验证层。
  • 上下文窗口限制: 企业的文档和日志数据量巨大,无法全部放入 Prompt。
    • 解决方案: 向量数据库进行语义检索,只召回最相关的 Top-K 文档;利用长上下文模型(如 Claude 3)处理更长的对话历史。
  • 数据安全: 将企业敏感数据发送到公有云模型的风险。
    • 解决方案: 利用 AWS Bedrock 的 VPC(虚拟私有云)端点,确保数据不离开私有网络,且不用于训练模型。

3. 实际应用价值

对实际工作的指导意义

  • 降低认知负荷: 新入职的开发人员无需花费数周学习 NRQL 或复杂的工具界面,直接通过对话即可上手。
  • 加速根因分析(RCA): 在故障排查时,时间就是金钱。NOVA 可以快速汇总分散在日志、指标和链路追踪中的信息,缩短 MTTR(平均修复时间)。

可以应用到哪些场景

  • DevOps 与 SRE: 自动化巡检、故障诊断、性能优化建议。
  • 业务分析: 非技术背景的产品经理询问“用户留存率”或“API 响应趋势”。
  • 内部知识库: 企业文档的智能问答,替代传统的搜索框。

需要注意的问题

  • 过度依赖: 用户可能盲目信任 AI 的结论,需要始终展示“引用来源”或“底层查询语句”,以便人工复核。
  • 成本控制: 频繁调用 LLM 和大规模检索可能带来高昂的 API 成本,需要实施缓存策略。

4. 行业影响分析

对行业的启示 New Relic 的案例表明,“可观测性 + AI” 是未来的必然趋势。这不仅仅是添加一个“侧边栏聊天”,而是重构用户与数据的交互方式。所有的 B2B 软件(ERP、CRM、CI/CD)都将经历类似的 AI 重构。

可能带来的变革

  • 查询语言的消亡: SQL、NRQL 等专用语言将逐渐被自然语言接口封装,只有极少数专家需要直接编写。
  • 从“看数据”到“聊数据”: 仪表盘将不再是静态的,而是根据对话动态生成的。

对行业格局的影响 拥有高质量私有数据和强大工程化能力的 SaaS 厂商将受益最大。通用模型(如 GPT-4)无法替代垂直领域的专业 Agent,因为后者拥有私有数据上下文和执行动作的能力。

5. 延伸思考

引发的其他思考

  • Agent 的自主性边界: 目前 NOVA 主要是辅助。未来,它是否可以拥有“写权限”,即自动修复故障(如自动重启服务、回滚部署)?这带来了巨大的机遇,也带来了巨大的风险。
  • 人机协作的伦理: 当 AI 给出错误的运维建议导致事故时,责任归属如何界定?

未来发展趋势

  • 多模态可观测性: AI 将不仅能分析文本日志,还能通过分析系统截图、网络拓扑图来诊断问题。
  • 预测性运维: 从“出了事怎么修”转变为“预测要出事并提前预防”。

6. 实践建议

如何应用到自己的项目

  1. 评估数据资产: 你的产品是否有高质量的文档、API 规范或结构化数据?这是构建 AI 应用的基础。
  2. 从小处着手(MVP): 不要试图一开始就构建全能 Agent。先从“RAG 文档问答”开始,验证准确性,再逐步加入“工具调用”能力。
  3. 选择合适的堆栈: 利用 AWS Bedrock 或 Azure OpenAI 等托管服务,减少基础设施维护成本。

具体的行动建议

  • 建立数据管道: 确保你的私有数据(文档、知识库)已经向量化并存储在向量数据库中。
  • 设计 Prompt 模板: 建立严格的 Prompt Engineering 流程,明确 System Prompt,限制 AI 的角色和输出格式。
  • 实施反馈机制: 在 AI 回答下方加入“点赞/点踩”按钮,收集 Bad Cases 用于微调或检索优化。

实践中的注意事项

  • Prompt 注入攻击: 必须严格清洗用户输入,防止用户通过特殊指令绕过系统限制。
  • 级联错误: 如果第一步查询生成的代码是错的,后面的分析全错。需要在每一步设置校验逻辑。

7. 案例分析

成功案例分析

  • New Relic NOVA: 成功的关键在于将“生成式 AI”与“可观测性平台”深度绑定,而不是浮于表面。它解决了工程师“写查询难”的真实痛点。
  • Github Copilot: 类似的逻辑,将 AI 植入编码工作流,通过上下文感知提升效率。

失败案例反思

  • 早期的客服机器人: 许多企业盲目上线基于规则或弱 AI 的客服,导致“人工智障”体验,不仅没解决问题,还增加了客户投诉。原因在于缺乏意图识别能力和上下文记忆。
  • 教训: 如果 AI 无法准确理解意图或无法访问实时数据,不要强行上线。

8. 哲学与逻辑:论证地图

中心命题 在企业级软件中,基于 RAG 和 Agent 架构的生成式 AI(如 New Relic NOVA)能够显著提升用户生产力,其核心价值在于通过自然语言接口降低了专业数据的交互门槛。

支撑理由与依据

  1. 理由 1:降低专业门槛。
    • 依据: 用户无需学习复杂的查询语言(如 SQL/NRQL),自然语言是通用的。
    • 证据: New Relic 内部测试显示,新用户通过 NOVA 查询数据的速度比手动编写代码快 N 倍。
  2. 理由 2:增强上下文理解能力。
    • 依据: LLM 具有语义理解能力,能关联分散在不同文档和数据源中的信息。
    • 证据: RAG 技术允许 AI 基于企业私有知识库回答特定领域问题,而非通用互联网知识。
  3. 理由 3:从“检索”到“执行”的转化。
    • 依据: AI 不仅能提供信息,还能通过 API 执行任务(Function Calling)。
    • 证据: NOVA 可以生成并执行查询代码,直接返回结果。

反例或边界条件

  1. 反例 1:高度确定性的任务。 在金融结算等容错率为零的场景,AI 的概率性生成特性可能导致不可接受的错误,此时传统确定性代码更优。
  2. 边界条件:数据隐私。 如果企业无法使用云端 LLM(由于合规要求),且无法部署私有 LLM,则该应用无法落地。
  3. 反例 2:极度复杂的嵌套逻辑。 对于涉及几十个表的复杂关联分析,目前的 AI 可能会生成低效或错误的查询,人工专家仍然更可靠。

判断类型

  • 事实: LLM 具有自然语言处理能力;AWS Bedrock 提供模型服务。
  • 价值判断: “显著提升生产力”是价值判断,取决于效率提升的幅度是否足以覆盖成本和风险。
  • 可检验预测: 部署 NOVA 后,企业平均故障修复时间(MTTR)将缩短;非技术人员查询数据的频率将增加。

立场与验证方式

  • 立场: 谨慎乐观。生成式 AI 是企业软件的下一个范式,但目前处于“辅助驾驶”阶段(

最佳实践

最佳实践指南

实践 1:构建基于大语言模型(LLM)的智能代码助手

说明: 利用生成式 AI 技术,开发能够理解自然语言并自动生成代码片段、调试错误或编写文档的智能助手。New Relic 的实践表明,将 LLM 集成到开发工作流中,可以显著减少工程师在重复性编码任务上的时间消耗,从而将精力集中在复杂的系统架构和创新功能上。

实施步骤:

  1. 评估团队中最耗时且重复性最高的编码任务(如样板代码生成、单元测试编写)。
  2. 选择合适的 AWS 基础模型(如 Amazon Bedrock 上的 Claude 或 Llama 模型)或托管 OpenAI 模型。
  3. 构建提示词工程库,确保生成的代码符合公司内部编码规范。
  4. 通过 API 将代码生成功能集成到 IDE(如 VS Code 插件)或内部开发门户中。

注意事项: 必须建立严格的代码审查机制,确保 AI 生成的代码在合并前经过安全扫描和人工审核,以防止引入安全漏洞或逻辑错误。


实践 2:利用 RAG 技术实现智能知识库问答

说明: 检索增强生成(RAG)结合了信息检索的精准性和生成式 AI 的流畅性。通过将企业内部文档、API 参考手册和运维指南向量化并存储在向量数据库中,员工可以通过自然语言提问,快速获得基于最新文档的准确答案,极大地提高了信息获取效率。

实施步骤:

  1. 收集并整理企业内部的非结构化数据(PDF、Wiki 页面、Markdown 文档)。
  2. 使用 AWS OpenSearch Service 或 Amazon Aurora PostgreSQL with pgvector 向量化这些文档。
  3. 开发中间层逻辑,接收用户查询,检索相关上下文,并将其作为背景信息输入给 LLM。
  4. 部署聊天界面(如 Slack Bot 或 Web Portal),供员工日常使用。

注意事项: 数据源的权限控制至关重要。确保 RAG 系统在检索信息时遵循企业的访问控制策略(ACL),防止敏感信息泄露给无权限的员工。


实践 3:自动化生成可观测性数据与洞察

说明: 利用生成式 AI 分析海量的可观测性数据(日志、指标、链路追踪),自动生成系统状态的摘要报告或异常解释。这不仅能缩短故障排查时间(MTTR),还能将复杂的技术数据转化为非技术利益相关者(如管理层)易懂的业务语言。

实施步骤:

  1. 将 New Relic 或类似监控工具的数据流接入到支持 AI 分析的数据平台(如 AWS Lambda 处理数据)。
  2. 配置 AI 模型专门用于识别时间序列数据中的异常模式和相关性。
  3. 设置自动化工作流,在检测到警报时触发 AI 生成“事故根因分析”草稿。
  4. 将 AI 生成的洞察直接集成到事故响应 PagerDuty 或 Slack 通知中。

注意事项: AI 的分析结果应作为辅助参考而非绝对真理。在处理严重生产事故时,仍需依赖资深工程师的判断,避免 AI 产生“幻觉”导致误导。


实践 4:在 AWS 上实施负责任的 AI 治理与安全防护

说明: 在引入生成式 AI 提升生产力的同时,必须建立严格的治理框架,防止数据泄露、版权侵权和模型滥用。利用 AWS 的安全服务(如 GuardDuty, Macie)和模型评估工具,确保 AI 应用的合规性。

实施步骤:

  1. 实施数据脱敏和匿名化流程,确保 PII(个人身份信息)在发送给公共 LLM 之前被移除或掩码。
  2. 利用 Amazon Bedrock 的 Guardrails 功能设置内容过滤器和拒绝话题,防止模型生成有害内容。
  3. 建立审计日志,记录所有 AI 模型的 API 调用、提示词和响应,以便于合规审查。
  4. 定期进行红队测试,试图诱导模型泄露信息或执行未授权操作,以修补安全漏洞。

注意事项: 明确区分使用公共模型和私有(微调)模型的数据边界。涉及核心知识产权的数据应仅在隔离环境(如 VPC 内的私有实例)中处理。


实践 5:建立提示词工程与迭代优化文化

说明: 生成式 AI 的输出质量高度依赖于输入的提示词。建立一套标准化的提示词管理和版本控制流程,鼓励团队分享高效提示词模板,并根据反馈持续优化,是最大化 AI 投资回报的关键。

实施步骤:

  1. 创建一个集中的提示词库,按业务场景分类(如“代码重构”、“SQL 查询生成”、“客户邮件回复”)。
  2. 为不同任务设计结构化的提示词模板,包含“角色设定”、“任务描述”、“约束条件”和“输出格式”。
  3. 定期收集团队对 AI 输出质量的反馈,利用这些反馈数据微调提示词或选择更适合的基础模型。
  4. 培训员工掌握高级提示词技巧(如 Chain

学习要点

  • 基于提供的标题和来源,以下是关于 New Relic 利用 AWS 上的生成式 AI 提升生产力的关键要点总结:
  • New Relic 通过在 AWS 基础设施上集成生成式 AI 技术,实现了开发与运维工作流程的自动化,从而显著提升了整体生产力。
  • 利用生成式 AI 能够快速处理和解释海量可观测性数据,帮助 IT 团队更高效地识别和解决系统性能瓶颈。
  • 该方案降低了技术门槛,允许非专家用户通过自然语言查询与系统交互,加速了故障排查和根因分析的过程。
  • 借助 AWS 强大的计算能力和 AI 服务,New Relic 能够提供更智能、更具预测性的系统监控与安全保障。
  • 这种技术整合展示了企业如何利用云生态系统的 AI 能力,将传统的监控工具转化为主动的运营助手。

引用

注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。



站内链接

相关文章