New Relic NOVA：基于AWS构建企业级生成式AI生产力引擎

基本信息

来源: AWS Machine Learning Blog (blog)
发布时间: 2026-02-09T16:45:16+00:00
链接: https://aws.amazon.com/blogs/machine-learning/new-relic-transforms-productivity-with-generative-ai-on-aws

摘要/简介

在与生成式人工智能创新中心（Generative AI Innovation Center）的合作下，New Relic NOVA（New Relic 全能虚拟助手）从知识助手演进为一个全面的生产力引擎。我们探讨了在构建企业级 AI 解决方案过程中的技术架构、开发历程以及关键经验教训，该方案能够在规模化运营中实现可衡量的生产力提升。

导语

随着生成式 AI 技术的成熟，将其融入企业级工作流已成为提升效率的关键路径。本文深入剖析了 New Relic 与 AWS 合作构建 NOVA 虚拟助手的技术架构与开发历程，重点探讨了如何在规模化运营中落地 AI 解决方案。通过分享从概念验证到实际部署的关键经验与教训，本文旨在为技术团队提供可复用的实践参考，帮助读者理解如何利用 AI 技术在复杂业务场景中实现可衡量的生产力提升。

摘要

总结：New Relic利用AWS生成式AI提升生产力

New Relic通过与AWS生成式AI创新中心合作，成功将其虚拟助手“NOVA”（New Relic 全能虚拟助手）从单纯的知识助手转型为一个全面的生产力引擎。本文详细探讨了该解决方案的技术架构、开发历程以及在构建企业级AI系统过程中的关键经验。

核心内容概括：

转型背景： 项目旨在利用生成式AI技术，将NOVA的功能从基础的信息检索扩展为能够显著提升用户效率的综合工具。
技术实现： 基于AWS基础设施构建了企业级AI架构，确保了系统的可扩展性和稳定性。
项目成果： 成功交付了一套能够在大规模应用中带来可衡量生产力提升的AI解决方案。

该项目展示了生成式AI在优化企业级软件工作流方面的巨大潜力。

文章中心观点 New Relic通过与AWS生成式AI创新中心合作，利用大语言模型（LLM）和检索增强生成（RAG）技术，成功将NOVA从单一的知识库助手转型为能够处理复杂工作流的全面生产力引擎，证明了生成式AI在企业级可观测性领域的落地价值。

支撑理由与评价

1. 内容深度：架构演进与工程化挑战的平衡

事实陈述：文章详细描述了从“知识助手”到“生产力引擎”的演进。这不仅仅是功能的增加，而是系统架构的根本性升级。前者主要依赖RAG解决“幻觉”问题，检索文档回答问题；后者则引入了Agent（智能体）概念，通过工具调用连接API，实际执行操作。
作者观点：文章在处理“上下文窗口限制”和“数据隐私”等工程难题时，展示了较为严谨的技术路径。例如，通过动态检索少样本示例来优化Prompt，而非单纯依赖模型微调，这在成本和效果之间取得了较好的平衡。
你的推断：文章虽然提到了“企业级”，但可能弱化了多租户数据隔离的复杂性。在SaaS平台中，如何确保LLM在跨租户检索时不会发生数据泄露，是比单纯RAG更严峻的安全挑战。

2. 实用价值：从“对话”到“行动”的范式转移

事实陈述：NOVA现在可以执行New Relic内的查询语言（NRQL），并协助用户进行图表配置和警报设置。
作者观点：这是极具实用价值的转变。传统的可观测性工具（如Datadog, Dynatrace）学习曲线陡峭，用户需要掌握特定的查询语言。NOVA将自然语言转化为结构化查询，极大地降低了门槛，释放了分析师的生产力。
实际案例：类似于GitHub Copilot不仅写注释还能生成代码，NOVA不仅解释报错（Copilot模式），还能直接部署修复脚本或调整阈值（Agent模式），这种“闭环”能力是企业级AI的核心竞争力。

3. 创新性：在垂直领域应用LLM的典型范式

事实陈述：利用AWS Bedrock作为底层模型服务，结合New Relic自身的遥测数据。
你的推断：文章并未提出全新的算法创新，其创新性在于“应用架构”的组合。它验证了“RAG + Agent + 遥测数据”这一技术栈在运维领域的可行性。这为其他B2B SaaS厂商（如安全厂商、CRM厂商）提供了可复用的模板。

反例与边界条件

尽管文章描绘了乐观的前景，但必须考虑以下边界条件和反例：

复杂逻辑推理的“幻觉”风险：
- 边界条件：当用户询问非常模糊的因果关系（例如：“为什么昨天下午2点系统变慢？”）时，LLM可能强行关联两个不相关的事件。
- 反例：传统的基于规则的根因分析（RCA）虽然死板，但在确定性上优于LLM。如果NOVA过度依赖LLM进行推理，可能会给出自信但错误的归因分析，导致运维人员误入歧途。
实时性与成本的博弈：
- 边界条件：在故障发生时，毫秒级的响应至关重要。
- 反例：调用LLM（尤其是通过API网关调用大模型）存在显著的延迟和网络波动风险。相比于直接查询时序数据库，通过LLM中间层转发的查询可能增加数秒的延迟，这在紧急故障处理中是不可接受的。
私有化部署的局限性：
- 边界条件：许多受监管的行业（金融、医疗）无法将数据发送至AWS Bedrock等公有云模型。
- 反例：对于这些客户，NOVA的“云端大脑”模式完全失效。相比之下，开源模型（如Llama 3）的本地化部署方案可能更具普适性，但这通常不在SaaS厂商的标准产品路线图中。

可验证的检查方式

为了验证文章中提到的“生产力引擎”是否名副其实，建议进行以下检查：

查询准确率与召回率测试：
- 指标：建立一组包含1000个典型运维问题的“黄金数据集”。对比NOVA生成的NRQL查询与专家编写的查询，计算执行成功率。
- 观察窗口：在产品发布后的3个月内，统计用户对NOVA生成查询的“采纳率”与“修改率”。如果用户采纳率低于60%，说明其生成代码的质量尚未达到生产力标准。
端到端延迟基准测试：
- 实验：测量从用户发送自然语言指令到看到可视化图表的时间。
- 对比：对比直接使用UI界面点击操作的时间。如果LLM路径的耗时超过传统路径的1.5倍，则所谓的“生产力提升”会被等待时间抵消。
幻觉率监控：
- 指标：监控“空结果”或“API错误”的发生频率。当LLM生成了不存在的字段名或错误的API调用时，系统应记录为一次“幻觉事件”。
- 阈值：在企业级应用中，严重的幻觉率应控制在0.1%以下。

总结

这篇文章是一篇高质量的工程实践案例，展示了B2B SaaS如何利用生成式AI重塑用户体验。它没有停留在概念层面，而是深入到了RAG、Agent和Prompt Engineering的具体细节。然而，读者应保持批判

技术分析

基于您提供的文章标题和摘要，以及对 New Relic（一家可观测性巨头）和 AWS Generative AI Innovation Center（生成式AI创新中心）背景的了解，以下是对该案例的深入分析。

深度分析：New Relic 利用 AWS 生成式 AI 重塑生产力

1. 核心观点深度解读

文章的主要观点 文章的核心观点是：生成式 AI（Generative AI）不仅仅是聊天机器人，而是企业级软件从“信息检索工具”向“智能生产力引擎”转型的关键基础设施。 New Relic NOVA 的进化展示了如何利用大语言模型（LLM）将复杂的技术数据（可观测性数据）转化为可执行的业务洞察，从而大幅降低技术门槛并提升全员的工程效率。

作者想要传达的核心思想 作者试图传达“AI 原生”应用的开发范式。核心思想在于**“上下文感知”与“无缝集成”**。传统的助手需要用户学习特定的查询语言，而基于 LLM 的 NOVA 能够理解自然语言意图，并自动调用底层 API（如查询语言 NRQL）来获取数据。这意味着 AI 不再是表面的交互层，而是深入到了业务逻辑和数据核心。

观点的创新性和深度

从“搜索”到“生成”的跨越： 传统运维工具依赖关键词匹配和预定义仪表盘。NOVA 的创新在于它能“生成”答案，甚至“生成”查询代码，解决了“我知道我想查什么，但我不知道怎么写代码”的痛点。
企业级控制的平衡： 文章强调了在利用 LLM 强大能力的同时，如何通过架构设计解决企业最担心的“幻觉”和数据安全问题，这是对当前 AI 落地最深层次的探讨。

为什么这个观点重要 对于 SaaS 行业和工程团队而言，这代表了一种新的交互标准。未来的企业软件如果不具备自然语言交互和智能推理能力，将被淘汰。对于 New Relic 而言，这是其在激烈的可观测性市场中保持领先的关键差异化功能。

2. 关键技术要点

涉及的关键技术或概念

RAG（检索增强生成）： 连接 LLM 与私有数据的核心技术，确保回答基于 New Relic 的真实文档和用户数据。
AWS Bedrock： 提供基础模型（如 Anthropic Claude 或 Amazon Titan）的托管服务，确保了基础设施的弹性和安全性。
LangChain / 框架编排： 用于构建 AI 应用的逻辑链，管理提示词、记忆和工具调用。
Function Calling / Tool Use： 允许 LLM 不仅生成文本，还能生成结构化的 JSON 来调用后端 API（如执行数据库查询）。
Guardrails（护栏机制）： 过滤不当输入和输出，防止 PII（个人身份信息）泄露。

技术原理和实现方式 NOVA 的架构通常遵循以下流程：

意图识别： 用户输入自然语言（如“过去一小时的错误率”），LLM 分析意图。
路由决策： 系统判断这是一个简单的文档问答（走 RAG 路径）还是一个需要执行的数据查询（走 Agent 路径）。
代码生成与执行： 如果是数据查询，LLM 生成 NRQL（New Relic 查询语言）代码。
沙箱执行： 系统在安全环境中执行该代码，获取结果。
结果总结： LLM 将原始数据转化为自然语言解释，并可能生成图表。

技术难点和解决方案

幻觉： LLM 可能编造不存在的 API 功能。
- 解决方案： 严格的 RAG 检索，强制 LLM 仅基于检索到的文档回答，并加入验证层。
上下文窗口限制： 企业的文档和日志数据量巨大，无法全部放入 Prompt。
- 解决方案： 向量数据库进行语义检索，只召回最相关的 Top-K 文档；利用长上下文模型（如 Claude 3）处理更长的对话历史。
数据安全： 将企业敏感数据发送到公有云模型的风险。
- 解决方案： 利用 AWS Bedrock 的 VPC（虚拟私有云）端点，确保数据不离开私有网络，且不用于训练模型。

3. 实际应用价值

对实际工作的指导意义

降低认知负荷： 新入职的开发人员无需花费数周学习 NRQL 或复杂的工具界面，直接通过对话即可上手。
加速根因分析（RCA）： 在故障排查时，时间就是金钱。NOVA 可以快速汇总分散在日志、指标和链路追踪中的信息，缩短 MTTR（平均修复时间）。

可以应用到哪些场景

DevOps 与 SRE： 自动化巡检、故障诊断、性能优化建议。
业务分析： 非技术背景的产品经理询问“用户留存率”或“API 响应趋势”。
内部知识库： 企业文档的智能问答，替代传统的搜索框。

需要注意的问题

过度依赖： 用户可能盲目信任 AI 的结论，需要始终展示“引用来源”或“底层查询语句”，以便人工复核。
成本控制： 频繁调用 LLM 和大规模检索可能带来高昂的 API 成本，需要实施缓存策略。

4. 行业影响分析

对行业的启示 New Relic 的案例表明，“可观测性 + AI” 是未来的必然趋势。这不仅仅是添加一个“侧边栏聊天”，而是重构用户与数据的交互方式。所有的 B2B 软件（ERP、CRM、CI/CD）都将经历类似的 AI 重构。

可能带来的变革

查询语言的消亡： SQL、NRQL 等专用语言将逐渐被自然语言接口封装，只有极少数专家需要直接编写。
从“看数据”到“聊数据”： 仪表盘将不再是静态的，而是根据对话动态生成的。

对行业格局的影响 拥有高质量私有数据和强大工程化能力的 SaaS 厂商将受益最大。通用模型（如 GPT-4）无法替代垂直领域的专业 Agent，因为后者拥有私有数据上下文和执行动作的能力。

5. 延伸思考

引发的其他思考

Agent 的自主性边界： 目前 NOVA 主要是辅助。未来，它是否可以拥有“写权限”，即自动修复故障（如自动重启服务、回滚部署）？这带来了巨大的机遇，也带来了巨大的风险。
人机协作的伦理： 当 AI 给出错误的运维建议导致事故时，责任归属如何界定？

未来发展趋势

多模态可观测性： AI 将不仅能分析文本日志，还能通过分析系统截图、网络拓扑图来诊断问题。
预测性运维： 从“出了事怎么修”转变为“预测要出事并提前预防”。

6. 实践建议

如何应用到自己的项目

评估数据资产： 你的产品是否有高质量的文档、API 规范或结构化数据？这是构建 AI 应用的基础。
从小处着手（MVP）： 不要试图一开始就构建全能 Agent。先从“RAG 文档问答”开始，验证准确性，再逐步加入“工具调用”能力。
选择合适的堆栈： 利用 AWS Bedrock 或 Azure OpenAI 等托管服务，减少基础设施维护成本。

具体的行动建议

建立数据管道： 确保你的私有数据（文档、知识库）已经向量化并存储在向量数据库中。
设计 Prompt 模板： 建立严格的 Prompt Engineering 流程，明确 System Prompt，限制 AI 的角色和输出格式。
实施反馈机制： 在 AI 回答下方加入“点赞/点踩”按钮，收集 Bad Cases 用于微调或检索优化。

实践中的注意事项

Prompt 注入攻击： 必须严格清洗用户输入，防止用户通过特殊指令绕过系统限制。
级联错误： 如果第一步查询生成的代码是错的，后面的分析全错。需要在每一步设置校验逻辑。

7. 案例分析

成功案例分析

New Relic NOVA： 成功的关键在于将“生成式 AI”与“可观测性平台”深度绑定，而不是浮于表面。它解决了工程师“写查询难”的真实痛点。
Github Copilot： 类似的逻辑，将 AI 植入编码工作流，通过上下文感知提升效率。

失败案例反思

早期的客服机器人： 许多企业盲目上线基于规则或弱 AI 的客服，导致“人工智障”体验，不仅没解决问题，还增加了客户投诉。原因在于缺乏意图识别能力和上下文记忆。
教训： 如果 AI 无法准确理解意图或无法访问实时数据，不要强行上线。

8. 哲学与逻辑：论证地图

中心命题 在企业级软件中，基于 RAG 和 Agent 架构的生成式 AI（如 New Relic NOVA）能够显著提升用户生产力，其核心价值在于通过自然语言接口降低了专业数据的交互门槛。

支撑理由与依据

理由 1：降低专业门槛。
- 依据： 用户无需学习复杂的查询语言（如 SQL/NRQL），自然语言是通用的。
- 证据： New Relic 内部测试显示，新用户通过 NOVA 查询数据的速度比手动编写代码快 N 倍。
理由 2：增强上下文理解能力。
- 依据： LLM 具有语义理解能力，能关联分散在不同文档和数据源中的信息。
- 证据： RAG 技术允许 AI 基于企业私有知识库回答特定领域问题，而非通用互联网知识。
理由 3：从“检索”到“执行”的转化。
- 依据： AI 不仅能提供信息，还能通过 API 执行任务（Function Calling）。
- 证据： NOVA 可以生成并执行查询代码，直接返回结果。

反例或边界条件

反例 1：高度确定性的任务。 在金融结算等容错率为零的场景，AI 的概率性生成特性可能导致不可接受的错误，此时传统确定性代码更优。
边界条件：数据隐私。 如果企业无法使用云端 LLM（由于合规要求），且无法部署私有 LLM，则该应用无法落地。
反例 2：极度复杂的嵌套逻辑。 对于涉及几十个表的复杂关联分析，目前的 AI 可能会生成低效或错误的查询，人工专家仍然更可靠。

判断类型

事实： LLM 具有自然语言处理能力；AWS Bedrock 提供模型服务。
价值判断： “显著提升生产力”是价值判断，取决于效率提升的幅度是否足以覆盖成本和风险。
可检验预测： 部署 NOVA 后，企业平均故障修复时间（MTTR）将缩短；非技术人员查询数据的频率将增加。

立场与验证方式

立场： 谨慎乐观。生成式 AI 是企业软件的下一个范式，但目前处于“辅助驾驶”阶段（

最佳实践

最佳实践指南

实践 1：构建基于大语言模型（LLM）的智能代码助手

说明: 利用生成式 AI 技术，开发能够理解自然语言并自动生成代码片段、调试错误或编写文档的智能助手。New Relic 的实践表明，将 LLM 集成到开发工作流中，可以显著减少工程师在重复性编码任务上的时间消耗，从而将精力集中在复杂的系统架构和创新功能上。

实施步骤:

评估团队中最耗时且重复性最高的编码任务（如样板代码生成、单元测试编写）。
选择合适的 AWS 基础模型（如 Amazon Bedrock 上的 Claude 或 Llama 模型）或托管 OpenAI 模型。
构建提示词工程库，确保生成的代码符合公司内部编码规范。
通过 API 将代码生成功能集成到 IDE（如 VS Code 插件）或内部开发门户中。

注意事项: 必须建立严格的代码审查机制，确保 AI 生成的代码在合并前经过安全扫描和人工审核，以防止引入安全漏洞或逻辑错误。

实践 2：利用 RAG 技术实现智能知识库问答

说明: 检索增强生成（RAG）结合了信息检索的精准性和生成式 AI 的流畅性。通过将企业内部文档、API 参考手册和运维指南向量化并存储在向量数据库中，员工可以通过自然语言提问，快速获得基于最新文档的准确答案，极大地提高了信息获取效率。

实施步骤:

收集并整理企业内部的非结构化数据（PDF、Wiki 页面、Markdown 文档）。
使用 AWS OpenSearch Service 或 Amazon Aurora PostgreSQL with pgvector 向量化这些文档。
开发中间层逻辑，接收用户查询，检索相关上下文，并将其作为背景信息输入给 LLM。
部署聊天界面（如 Slack Bot 或 Web Portal），供员工日常使用。

注意事项: 数据源的权限控制至关重要。确保 RAG 系统在检索信息时遵循企业的访问控制策略（ACL），防止敏感信息泄露给无权限的员工。

实践 3：自动化生成可观测性数据与洞察

说明: 利用生成式 AI 分析海量的可观测性数据（日志、指标、链路追踪），自动生成系统状态的摘要报告或异常解释。这不仅能缩短故障排查时间（MTTR），还能将复杂的技术数据转化为非技术利益相关者（如管理层）易懂的业务语言。

实施步骤:

将 New Relic 或类似监控工具的数据流接入到支持 AI 分析的数据平台（如 AWS Lambda 处理数据）。
配置 AI 模型专门用于识别时间序列数据中的异常模式和相关性。
设置自动化工作流，在检测到警报时触发 AI 生成“事故根因分析”草稿。
将 AI 生成的洞察直接集成到事故响应 PagerDuty 或 Slack 通知中。

注意事项: AI 的分析结果应作为辅助参考而非绝对真理。在处理严重生产事故时，仍需依赖资深工程师的判断，避免 AI 产生“幻觉”导致误导。

实践 4：在 AWS 上实施负责任的 AI 治理与安全防护

说明: 在引入生成式 AI 提升生产力的同时，必须建立严格的治理框架，防止数据泄露、版权侵权和模型滥用。利用 AWS 的安全服务（如 GuardDuty, Macie）和模型评估工具，确保 AI 应用的合规性。

实施步骤:

实施数据脱敏和匿名化流程，确保 PII（个人身份信息）在发送给公共 LLM 之前被移除或掩码。
利用 Amazon Bedrock 的 Guardrails 功能设置内容过滤器和拒绝话题，防止模型生成有害内容。
建立审计日志，记录所有 AI 模型的 API 调用、提示词和响应，以便于合规审查。
定期进行红队测试，试图诱导模型泄露信息或执行未授权操作，以修补安全漏洞。

注意事项: 明确区分使用公共模型和私有（微调）模型的数据边界。涉及核心知识产权的数据应仅在隔离环境（如 VPC 内的私有实例）中处理。

实践 5：建立提示词工程与迭代优化文化

说明: 生成式 AI 的输出质量高度依赖于输入的提示词。建立一套标准化的提示词管理和版本控制流程，鼓励团队分享高效提示词模板，并根据反馈持续优化，是最大化 AI 投资回报的关键。

实施步骤:

创建一个集中的提示词库，按业务场景分类（如“代码重构”、“SQL 查询生成”、“客户邮件回复”）。
为不同任务设计结构化的提示词模板，包含“角色设定”、“任务描述”、“约束条件”和“输出格式”。
定期收集团队对 AI 输出质量的反馈，利用这些反馈数据微调提示词或选择更适合的基础模型。
培训员工掌握高级提示词技巧（如 Chain

学习要点

基于提供的标题和来源，以下是关于 New Relic 利用 AWS 上的生成式 AI 提升生产力的关键要点总结：
New Relic 通过在 AWS 基础设施上集成生成式 AI 技术，实现了开发与运维工作流程的自动化，从而显著提升了整体生产力。
利用生成式 AI 能够快速处理和解释海量可观测性数据，帮助 IT 团队更高效地识别和解决系统性能瓶颈。
该方案降低了技术门槛，允许非专家用户通过自然语言查询与系统交互，加速了故障排查和根因分析的过程。
借助 AWS 强大的计算能力和 AI 服务，New Relic 能够提供更智能、更具预测性的系统监控与安全保障。
这种技术整合展示了企业如何利用云生态系统的 AI 能力，将传统的监控工具转化为主动的运营助手。

引用

文章/节目: https://aws.amazon.com/blogs/machine-learning/new-relic-transforms-productivity-with-generative-ai-on-aws
RSS 源: https://aws.amazon.com/blogs/machine-learning/feed/

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

OpenAI与Anthropic模型之争：Claude Opus 4.6对决GPT 5.3 Codex
亚马逊利用 Nova 模型自动化新履约中心运营就绪测试
OpenAI在ChatGPT测试广告以支持免费访问
Transformers.js v4 预览版已发布 NPM
Transformers.js v4 Preview: Now Available on NPM 本文由 AI Stack 自动生成，包含深度分析与方法论思考。

AI Stack

New Relic NOVA：基于AWS构建企业级生成式AI生产力引擎