New Relic NOVA：基于AWS的生成式AI效能引擎架构与实践

基本信息

来源: AWS Machine Learning Blog (blog)
发布时间: 2026-02-09T16:45:16+00:00
链接: https://aws.amazon.com/blogs/machine-learning/new-relic-transforms-productivity-with-generative-ai-on-aws

摘要/简介

通过与生成式 AI 创新中心合作，New Relic NOVA（New Relic Omnipresence Virtual Assistant，New Relic 全能虚拟助手）从知识助手演变为全面的效能引擎。我们将探讨技术架构、开发历程以及在构建企业级 AI 解决方案过程中的关键经验，该方案能够在大规模范围内实现可衡量的生产力提升。

导语

New Relic 与 AWS 生成式 AI 创新中心合作，将 NOVA 从单一的知识助手升级为全面的企业级效能引擎。本文将深入剖析该方案的技术架构与开发历程，探讨如何利用生成式 AI 实现可衡量的生产力提升。通过分享构建过程中的关键实践经验，旨在为技术团队在企业级场景中落地 AI 解决方案提供参考与借鉴。

摘要

New Relic 借助 AWS 生成式 AI 实现生产力转型

通过与 AWS 生成式 AI 创新中心 的合作，New Relic 将其虚拟助手 NOVA 从单一的知识助手升级为全方位的生产力引擎。这一案例深入探讨了构建企业级 AI 解决方案的技术架构、开发历程及关键经验，展示了如何利用生成式 AI 在大规模范围内实现可衡量的生产力提升。

文章中心观点 New Relic 通过与 AWS Generative AI Innovation Center 合作，利用 RAG（检索增强生成）技术将 NOVA 从简单的知识助手重构为企业级生产力引擎，证明了在大规模可观测性数据场景下，结合严格的安全护栏是落地生成式 AI 的关键路径。

支撑理由与深度评价

1. 技术架构的务实性：RAG 与向量数据库的深度整合

事实陈述：文章指出 NOVA 的核心能力建立在检索增强生成（RAG）架构之上，利用 Amazon Bedrock 和 Amazon OpenSearch Service。
深度分析：这是目前企业级 AI 落地最主流且稳健的范式。可观测性数据具有高基数、高维度的特点，单纯的 LLM（大语言模型）无法通过训练掌握所有实时系统状态。New Relic 选择不依赖模型本身的记忆，而是通过向量检索将相关的文档、日志和配置上下文注入 Prompt，这有效解决了“幻觉”问题。
实用价值：对于技术团队而言，这提供了一个明确的架构范式：当处理垂直领域专业知识时，向量数据库的质量（Embedding 质量）比模型参数大小更决定最终效果。

2. 从“对话”到“执行”的范式转移

事实陈述：文章强调 NOVA 不仅是回答问题，还能执行复杂任务，如编写查询、分析异常和指导修复。
作者观点：这是文章最具洞察力的观点。传统的 Chatbot 往往止步于信息检索，而 New Relic 试图将 AI 转化为“Agent”。
创新性：将自然语言转化为可执行的查询语言（如 NRQL）或 API 调用，这需要极强的上下文理解和代码生成能力。这种“Copilot”模式正在重塑 SaaS 软件的交互界面，降低了用户的学习门槛。

3. 安全与隐私的“护栏”策略

事实陈述：文中提到利用 AWS 的服务来确保数据不用于训练基础模型，并实施严格的权限控制。
行业影响：在 B2B 领域，数据隐私是红线。New Relic 的做法展示了如何在利用公有云 AI 能力的同时，满足企业合规要求（SOC2, GDPR）。这为其他犹豫是否上云 GenAI 的厂商提供了合规范本。

反例与边界条件

成本与延迟的权衡：文章主要强调了成功，但未深入探讨 RAG 架构在处理超大规模实时日志时的检索延迟和 Token 成本。对于毫秒级要求的故障排查，多跳检索可能导致响应过慢，这在高频交易场景下是不可接受的。
复杂推理能力的局限：虽然 NOVA 可以辅助分析，但在面对从未见过的“黑天鹅”系统故障时，基于历史数据检索的 RAG 模式可能无法提供创新性的解决方案，它只能基于已知知识推理，无法进行真正的归纳创新。

可验证的检查方式

NRQL 查询准确率：给定 100 个自然语言描述的复杂查询需求（例如：“查找过去 24 小时内响应时间超过 500ms 且错误率上升的 AWS Lambda 函数”），统计 NOVA 生成的 NRQL 语句一次执行成功的比例。
幻觉率测试：通过故意构造不存在文档中的问题，检测 NOVA 是否会编造答案。理想的 RAG 系统应回答“我不知道”而非提供错误信息。
平均解决时间（MTTR）对比：在 A/B 测试中，对比使用 NOVA 的运维团队与使用传统仪表盘的团队，在处理标准故障时的 MTTR 缩短比例。

实际应用建议

不要迷信模型，要迷信数据：如果你希望构建类似的企业级 AI，不要一开始就想着微调模型，而应该花 80% 的精力清洗你的知识库和文档。RAG 的上限由你的数据质量决定。
建立“人机回环”机制：在 AI 执行高危操作（如删除资源、修改配置）前，必须引入人工确认步骤。
关注上下文窗口管理：随着对话深入，Prompt 会无限膨胀。在实际开发中，必须实现自动化的上下文压缩策略，只保留最相关的检索结果，否则成本将失控。

总结这篇文章不仅是一个成功案例，更是一份企业级 GenAI 落地的操作指南。它揭示了当前 AI 应用的真相：成功不在于最先进的模型，而在于如何将模型能力与企业特定数据、工作流最安全、最高效地编织在一起。

技术分析

基于提供的标题和摘要，以及对 New Relic、AWS 生成式 AI 创新中心以及企业级 AI 助手发展路径的深入理解，以下是对该主题的全面深入分析。

深度分析报告：New Relic 如何利用 AWS 生成式 AI 重塑生产力

1. 核心观点深度解读

文章的主要观点 文章的核心观点在于阐述生成式人工智能（Generative AI）不仅仅是聊天机器人或简单的问答工具，而是可以通过深度整合企业核心数据资产，演变为一种**“全面生产力引擎”**。New Relic NOVA 从单纯的“知识助手”进化为能够执行复杂任务、提供上下文洞察的智能体，标志着企业级应用正从“信息检索”向“任务自动化与智能决策”跨越。

作者想要传达的核心思想 作者试图传达的核心思想是：构建企业级 AI 的关键在于“数据连接”与“用户体验重塑”。通过与 AWS Generative AI Innovation Center 的合作，New Relic 证明了利用大语言模型（LLM）处理海量可观测性数据的可行性。核心思想在于将 AI 无缝嵌入到用户的工作流中，使技术门槛降低（自然语言交互），同时通过 RAG（检索增强生成）等技术确保输出的准确性和安全性。

观点的创新性和深度 该观点的创新性在于打破了传统运维工具“仪表盘”的交互范式。传统的可观测性工具依赖用户去解读图表和日志，而 NOVA 的进化代表了“主动式智能”的深度实践——即由 AI 主动分析数据并给出结论。深度方面，它探讨了如何在一个高度敏感、数据量巨大的 B2B 环境中，平衡 AI 的创造力与工程严谨性（如防止幻觉、数据隔离）。

为什么这个观点重要 在 SaaS 行业竞争加剧的背景下，功能堆砌已不再是护城河。谁能降低用户的使用门槛，谁能更快地从数据中提取价值，谁就能占据市场高地。这一观点表明，AI 正成为 SaaS 产品的新界面，对于任何希望提升用户留存率和工作效率的企业来说，这种从“工具”到“助手”的转型都具有战略级的参考意义。

2. 关键技术要点

涉及的关键技术或概念

LLM (Large Language Models): 可能涉及 Amazon Bedrock 托管的模型（如 Anthropic Claude 或 Amazon Titan）。
RAG (Retrieval-Augmented Generation): 连接私有知识库与模型的核心技术。
Vector Databases (向量数据库): 用于存储和检索文档与日志的语义嵌入。
Agent/Orchestration (智能体编排): 将单一查询转化为多步执行的 API 调用链。
AWS Infrastructure: Lambda, Bedrock, OpenSearch 等。

技术原理和实现方式 NOVA 的技术架构通常遵循以下流程：

意图识别： 用户输入自然语言，LLM 分析用户意图（是查询文档、分析错误日志，还是配置告警？）。
路由与检索： 系统根据意图调用不同的工具。如果是查询知识库，通过 RAG 在向量数据库中检索相关文档片段；如果是分析数据，生成对应的查询语言（如 NRQL）。
生成与执行： LLM 结合检索到的上下文生成回答或代码，并在沙箱环境中执行查询，确保安全性。
响应与引用： 将结果返回给用户，并附带引用来源，确保可追溯性。

技术难点和解决方案

幻觉问题： 在工程领域，AI 的胡编乱造是致命的。
- 解决方案： 严格的 RAG 流程，强制模型仅基于检索到的上下文回答，并引入“护栏”模型检测不当回答。
上下文窗口限制： 企业的日志和数据量巨大，无法全部放入 Prompt。
- 解决方案： 智能摘要和元数据过滤。先通过元数据筛选出相关数据子集，再进行精细化处理。
数据隐私与安全： 客户数据极其敏感。
- 解决方案： 利用 AWS 的私有网络环境，确保数据不离开客户 VPC，且不用于训练基础模型。

技术创新点分析 最大的创新点在于**“对话式到代码式”的转换**。NOVA 不仅能理解“系统为什么慢”，还能自动生成查询数据库的代码（NRQL），甚至直接调用 API 修改配置。这种将非结构化语言转化为结构化操作的能力，是生产力引擎的核心。

3. 实际应用价值

对实际工作的指导意义 该案例为所有技术产品经理和工程团队提供了范本：AI 化不是简单的“加个聊天窗口”，而是重构数据交互层。它指导团队应关注如何利用 AI 封装复杂的 API 和数据逻辑，从而让非专家用户也能完成专家级操作。

可以应用到哪些场景

DevOps 与 SRE: 自动化故障排查、日志分析、告警配置。
客户支持: 构建基于真实产品文档的智能客服，减少人工介入。
数据分析: 商业智能（BI）工具的自然语言化，允许用户用“问问题”代替写 SQL。
内部知识管理: 企业级的“维基百科”升级版，能整合散落在 Slack、Jira、Confluence 中的信息。

需要注意的问题

成本控制： LLM 调用成本随用户量指数级上升，需要设计缓存机制。
信任危机： 初期 AI 可能会犯错，如何建立用户对 AI 的信任（如展示置信度、引用来源）至关重要。

实施建议 不要试图一步到位构建“全能 AI”。应从“高频、低风险”的场景开始（如文档问答），逐步过渡到“高风险、高价值”的场景（如自动变更基础设施）。

4. 行业影响分析

对行业的启示 New Relic 的案例表明，可观测性正在进入“AI-Native”时代。未来的监控工具不再是数据的展示者，而是数据的解释者和建议者。这启示整个 B2B 软件行业：如果不进行 AI 转型，产品体验将落后于时代。

可能带来的变革

“查询语言”的消亡： 像 SQL, NRQL, Splunk SPL 这种专用查询语言将逐渐被自然语言接口封装，仅在底层保留。
运维角色的转变： 运维工程师将从“救火队员”转变为“AI 训练师”和“策略制定者”，重复性的排查工作将被 AI 接管。

相关领域的发展趋势

Agentic Workflows (智能体工作流): AI 将不再只是回答问题，而是会主动提出优化建议并等待批准执行。
Small Language Models (SLM): 为了降低延迟和成本，针对特定任务微调的小模型将在企业内部广泛部署。

对行业格局的影响 AWS、Google Cloud 等云厂商通过提供底座能力，正在成为 AI 时代的赢家。而像 New Relic 这样的 ISV（独立软件开发商），其护城河将从“数据采集能力”转移到“AI 调优能力”和“私有数据质量”上。

5. 延伸思考

引发的其他思考 当 AI 能够处理所有运维任务时，人类在决策回路中的角色是什么？我们是否过度依赖 AI 而丧失了对系统底层的直觉？此外，当 AI 引擎出错导致生产事故时，责任归属（模型厂商、数据提供商、还是用户）如何界定？

可以拓展的方向

多模态分析： 结合服务器监控数据、代码变更记录和工单系统，进行全链路的根因分析。
预测性维护： 从“出事后再分析”转变为“预测即将发生的事并提前阻止”。

需要进一步研究的问题 如何量化 AI 助手带来的生产力提升？除了节省时间，是否减少了故障率？如何设计评估指标来衡量 RAG 系统在专业领域的准确率？

未来发展趋势 未来，每个企业都将拥有定制的“数字孪生运维专家”。AI 将具备自我修复能力，形成一个闭环的自治系统。

6. 实践建议

如何应用到自己的项目

数据治理先行： 在引入 AI 之前，先整理好你的文档和 API。垃圾数据进，垃圾答案出。
选择合适的基座： 利用 AWS Bedrock 等服务快速验证不同模型的效果，不要过早锁定单一模型。
建立反馈闭环： 在 AI 回答中加入“点赞/点踩”功能，利用用户反馈数据持续微调 RAG 策略。

具体的行动建议

第一步： 搭建一个基于 RAG 的文档问答机器人，解决内部支持效率问题。
第二步： 将 AI 与核心 API 连接，允许 AI 进行“只读”查询。
第三步： 逐步开放“写权限”，允许 AI 在人工确认下执行变更操作。

需要补充的知识

Prompt Engineering (提示词工程): 学习如何编写结构化的 Prompt。
LangChain / LlamaIndex: 掌握主流的 LLM 应用开发框架。
Vector Database: 了解向量检索的基本原理。

实践中的注意事项 务必在生产环境中设置“人工确认”环节。对于生成代码或修改配置的操作，必须先展示给用户审核，由用户点击执行，切勿给予 AI 完全的自主权。

7. 案例分析

结合实际案例说明 New Relic NOVA 的进化是一个典型的**“由内而外”**的案例。它首先服务于内部工程师，解决内部文档查找难的问题，验证了技术可行性后，再推向终端客户。

成功案例分析

GitHub Copilot: 与 NOVA 类似，Copilot 通过理解代码上下文，将开发者从重复编码中解放出来。成功的关键在于无缝集成到了 IDE 中，而不是作为一个外部工具存在。NOVA 也是深度集成在 New Relic 的界面中。
Klarna (客服 AI): Klarna 的 AI 助手处理了相当于 700 名全职客服的工作量。这证明了生成式 AI 在处理特定领域知识时的巨大潜力。

失败案例反思

早期聊天机器人 (基于规则): 许多早期客服机器人因为无法理解上下文和意图，导致用户极度反感。这警示我们，如果 AI 不能准确解决问题（幻觉率高），反而会降低用户体验。因此，New Relic 强调“企业级”和“准确性”，避免为了炫技而牺牲准确性。

经验教训总结

不要重新发明轮子： 利用云厂商的创新中心（如 AWS）可以加速起步。
上下文是王道： 没有上下文的 AI 毫无用处，必须将 AI 与用户的当前工作界面紧密结合。
渐进式发布： 从 Alpha 测试到小范围试用，逐步收集数据并优化模型。

8. 哲学与逻辑：论证地图

中心命题 构建企业级生成式 AI 应用的核心在于利用 RAG 技术将专有数据与大模型能力结合，从而将被动的知识检索转化为主动的生产力引擎。

支撑理由

数据时效性与隐私性: 通用大模型（如 GPT-4）的训练数据是截断的，且无法访问企业私有数据。

最佳实践

最佳实践指南

实践 1：利用生成式 AI 构建智能运维助手

说明: New Relic 通过集成 Amazon Bedrock 等生成式 AI 服务，将传统的可观测性数据转化为自然语言交互界面。这允许开发者和运维人员使用自然语言查询系统状态、分析根本原因，而无需掌握复杂的查询语言，从而显著降低使用门槛并提升故障排查效率。

实施步骤:

集成 LLM 服务: 在 AWS 环境中配置 Amazon Bedrock 或通过 SageMaker 接入大语言模型。
构建 RAG 架构: 将 New Relic 收集的日志、指标和链路数据向量化，存入向量数据库，为 LLM 提供上下文信息。
开发自然语言接口: 创建前端界面，允许用户输入“为什么我的应用响应变慢？”等问题，并将其转化为 API 调用。
上下文增强: 确保生成式 AI 能够根据当前时间窗口和特定服务 ID 精准检索相关数据。

注意事项: 需严格验证 AI 生成的解释与实际数据的一致性，避免模型产生“幻觉”导致错误的运维决策。

实践 2：自动化异常检测与根因分析

说明: 利用生成式 AI 的推理能力，对海量的可观测性数据进行模式识别。当系统出现异常指标时，AI 可以自动关联相关的日志错误和分布式追踪信息，快速定位导致性能下降的具体代码行或依赖服务，将平均修复时间 (MTTR) 从小时级降低到分钟级。

实施步骤:

定义基线行为: 利用机器学习算法建立系统正常运行的性能基线。
配置关联规则: 设定当 CPU 使用率飙升与特定错误日志同时出现时的触发逻辑。
部署自动分析代理: 使用 AI 代理实时监控流式数据，一旦检测到偏离基线，立即启动深度分析。
生成事件报告: 自动生成包含时间线、影响范围和推测根因的事故简报。

注意事项: 初期应设置较高的告警阈值以减少噪音，并在人工确认后不断微调异常检测的灵敏度。

实践 3：优化云资源成本与性能配置

说明: 通过分析历史资源使用数据和 AWS Cost Explorer 数据，生成式 AI 可以识别资源浪费（如闲置实例）或配置不当（如过度预配）的情况。AI 不仅能提供成本优化建议，还能根据负载模式预测，自动生成基础设施即代码修改建议。

实施步骤:

数据统一接入: 将 New Relic 的性能数据与 AWS 的计费数据打通。
模式识别训练: 训练模型识别周期性的资源使用峰值和低谷。
生成优化策略: 让 AI 基于数据生成具体的实例规格调整建议或 Spot 实例使用策略。
自动化应用: 在非生产环境或经过审批后，自动应用 AI 生成的优化配置。

注意事项: 任何自动化的资源调整都必须具备回滚机制，以防 AI 建议在极端流量场景下导致服务不可用。

实践 4：利用 AI 编程助手加速开发流程

说明: 参考 New Relic 开发者体验的改进，利用生成式 AI（如 Amazon CodeWhisperer）辅助编写用于监控的代码、脚本和插件。开发者可以通过自然语言描述需求，AI 自动生成符合 New Relic API 规范的代码片段，大幅减少编写样板代码的时间。

实施步骤:

IDE 集成: 在开发环境中集成 AI 编程助手插件。
提示词工程库: 建立一套针对常见监控场景（如自定义指标上报、日志解析）的提示词模板。
代码审查与迭代: 使用 AI 辅助审查生成的监控代码，确保安全性和性能。
文档生成: 利用 AI 自动为监控脚本和仪表板配置生成技术文档。

注意事项: 始终对 AI 生成的代码进行安全扫描和人工审查，确保没有引入硬编码凭证或漏洞。

实践 5：以安全合规为前提的 AI 数据治理

说明: 在利用生成式 AI 处理可观测性数据时，必须确保敏感数据（如 PII、密钥）不被泄露给公共模型。利用 AWS 的安全工具链和 New Relic 的数据脱敏功能，建立严格的数据治理边界，确保 AI 应用符合 SOC2、GDPR 等合规要求。

实施步骤:

数据脱敏: 在将数据发送给 LLM 之前，利用自动化的脱敏工具过滤敏感信息。
私有化模型部署: 对于高度敏感的数据，考虑在 VPC 内部部署通过 Amazon SageMaker 定制的私有模型。
访问控制: 实施 IAM 策略，确保只有特定角色的用户才能通过 AI 接口访问数据。
审计日志: 记录所有 AI 交互

学习要点

基于提供的标题和来源信息，以下是关于 New Relic 利用 AWS 生成式 AI 提升生产力的关键要点总结：
New Relic 通过集成 Amazon Bedrock 等 AWS 生成式 AI 服务，显著提升了其平台的智能化水平和运营效率。
利用大语言模型（LLM）能力，New Relic 能够将复杂的可观测性数据转化为自然语言，大幅降低了技术门槛。
生成式 AI 的引入实现了代码辅助和自动化工作流，从而直接加速了开发人员的构建和交付过程。
双方合作展示了如何利用云原生 AI 技术优化故障排查和系统监控，将被动响应转变为主动预防。
这一案例证明了生成式 AI 在提升企业级软件生产力方面的实际应用价值，为行业树立了转型标杆。

引用

文章/节目: https://aws.amazon.com/blogs/machine-learning/new-relic-transforms-productivity-with-generative-ai-on-aws
RSS 源: https://aws.amazon.com/blogs/machine-learning/feed/

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类： AI 工程 / 系统与基础设施
标签：生成式AI / AWS / 企业级AI / 架构设计 / 效能引擎 / 虚拟助手 / 生产力 / LLM
场景： AI/ML项目 / 大语言模型

New Relic NOVA：基于AWS构建企业级生成式AI生产力引擎
中国开源AI生态架构选择：DeepSeek之外的技术路径
AI对工程类岗位的影响或与预期不同
Codex 应用：基于 GPT-3 的代码生成工具
Codex 应用：基于 OpenAI 模型的代码生成工具 本文由 AI Stack 自动生成，包含深度分析与方法论思考。

AI Stack

New Relic NOVA：基于AWS的生成式AI效能引擎架构与实践