AWS 推出基于 LLM-d 的分离式推理技术及 SageMaker HyperPod 实践

基本信息

来源: AWS Machine Learning Blog (blog)
发布时间: 2026-03-16T16:55:53+00:00
链接: https://aws.amazon.com/blogs/machine-learning/introducing-disaggregated-inference-on-aws-powered-by-llm-d

摘要/简介

在这篇博文中，我们介绍了下一代推理能力背后的概念，包括分离式服务、智能请求调度和专家并行。我们探讨了它们的优势，并演示了如何在 Amazon SageMaker HyperPod EKS 上实施这些功能，以实现推理性能、资源利用率和运营效率的显著提升。

导语

随着大语言模型参数规模的持续增长，传统的单体推理架构正面临严峻的扩展性与成本挑战。本文深入探讨了一种基于 llm-d 的“分离式推理”架构，重点解析其服务解耦、智能调度及专家并行的技术原理。通过展示如何在 Amazon SageMaker HyperPod EKS 上落地该方案，我们将为您揭示如何利用这一技术路径，在提升推理吞吐量的同时，实现资源利用率与运营效率的双重优化。

摘要

本文介绍了由 llm-d 驱动的 AWS 下一代推理能力，重点包括解耦服务、智能请求调度和专家并行等概念，并阐述了如何利用这些技术在 Amazon SageMaker HyperPod EKS 上实现推理性能、资源利用率和运营效率的显著提升。

深度评价：AWS 基于 llm-d 的解耦推理架构

中心观点： 该文章核心阐述了通过计算与显存解耦及专家并行技术，在 AWS SageMaker HyperPod 上构建下一代 LLM 推理系统，旨在解决大模型部署中资源利用率低与扩展性差的痛点，这标志着云厂商从单纯的“堆算力”向“精细化架构调度”的技术转型。

支撑理由与边界分析：

架构层面的解耦是提升 GPU 利用率的必然路径
- 事实陈述：文章提出的 Disaggregated Inference（解耦推理）将 LLM 推理所需的计算密集型任务与访存密集型任务分离，并动态调度到不同的 GPU 实例上。
- 深度分析：在 LLM 推理中，Prefill（预填充）阶段受限于计算带宽，而 Decode（解码）阶段受限于显存带宽。传统部署往往导致 GPU 在 Decode 阶段计算单元闲置。llm-d 通过解耦，允许 Decode 阶段使用显存优化的实例（如低算力高带宽），而 Prefill 使用计算型实例，从而打破了“木桶效应”。
- 反例/边界条件：这种解耦带来的网络延迟是不可忽视的。如果 Prefill 和 Decode 节点之间的网络通信（通过 NVLink 或高速以太网）延迟过高，对于首token延迟（TTFT）极度敏感的应用（如实时对话），这种架构的性能优势可能会被通信开销抵消。
专家并行是 MoE 模型高效部署的关键解法
- 事实陈述：文章重点强调了 Expert Parallelism（专家并行），针对 Mixtral 等 MoE（混合专家）架构模型进行优化。
- 深度分析：MoE 模型虽然参数量大，但每次推理只激活部分专家。传统的张量并行会导致通信冗余，而流水线并行会导致气泡。llm-d 提出的方案允许将不同的专家静态或动态映射到不同的计算节点，显著减少了无效的数据传输。
- 反例/边界条件：负载不均衡是 MoE 的死穴。如果用户的请求 Prompt 导致某些“热门专家”过载，而其他专家空闲，系统的整体吞吐量将受限于短板。此外，对于非 MoE 架构的稠密模型（如 Llama-3 70B），这种优势将不复存在。
智能请求调度是云原生架构的核心竞争力
- 你的推断：文章提到的“Intelligent request scheduling”暗示了 AWS 试图在 Kubernetes (EKS) 层面实现更细粒度的任务编排。
- 深度分析：这不仅仅是技术层面的优化，更是商业模式的优化。它允许 AWS 将闲置的显存资源（如 Spot 实例）整合起来服务大规模推理，降低了用户的边际成本。
- 反例/边界条件：系统复杂度与运维成本。在 EKS 上维护这样一套复杂的调度系统，对开发者的底层网络知识（如 RDMA 配置）要求极高。如果调度算法本身的开销过大，对于低并发场景反而不如传统部署。

批判性评价（维度分析）：

内容深度与严谨性（3.5/5）：文章成功引入了先进的架构概念，但作为技术博客，它略过了最棘手的工程细节。例如，跨节点 KV Cache（键值缓存）的同步机制、一致性协议以及网络分区时的容错处理均未详细展开。这更像是一篇“概念验证”而非“工程指南”。
实用价值（4/5）：对于正在使用 AWS HyperPod 且面临 MoE 模型部署困境的团队，这提供了官方的最佳实践路径。它指明了从“单机大显卡”向“集群化异构计算”演进的方向。
创新性（4/5）：虽然“解耦”概念在学术界（如 vLLM, SGLang）已有讨论，但 AWS 将其深度整合进 EKS 和 SageMaker 产品线，特别是结合 llm-d 这种特定工具，属于云厂商中的首发尝试，具有很高的行业风向标意义。
争议点与不同观点：
- 闭源 vs 开源：llm-d 并非一个完全独立的开源标准，而是 AWS 的特定实现。这与 NVIDIA NIM 或开源的 vLLM 形成竞争。社区可能会质疑：这是否会导致 AWS 的 Vendor Lock-in（供应商锁定）？
- 性能损耗疑虑：业界普遍认为，除非使用 NVIDIA 的 NVLink-NvSwitch 互联，否则跨节点的显存访问延迟难以接受。AWS 必须证明其 EC2 之间的网络带宽足以支撑这种解耦。

实际应用建议：

适用场景：仅在部署超大参数量模型（>100B）或MoE 架构模型时考虑此架构。对于中小模型（如 Llama-3-8B/70B），单机或多机张量并行仍是性价比最高的选择。
网络测试：在生产环境落地前，必须严格测试 Prefill 节点与 Decode 节点之间的网络吞吐与延迟，确保 KV Cache 传输不是瓶颈。
成本监控：解耦架构可能导致难以预测的网络流量费用。需开启 CloudWatch 详细监控，对比“解耦前

技术分析

基于您提供的文章标题和摘要，以及对AWS（亚马逊云科技）在生成式AI基础设施领域一贯技术路线的了解，以下是对这篇关于“llm-d驱动的解耦推理”文章的深入分析。

深入分析：AWS llm-d 与解耦推理架构

1. 核心观点深度解读

文章的主要观点 文章的核心观点是：随着大模型（LLM）规模的爆炸式增长，传统的“单体”推理架构（即一个GPU实例既负责计算又负责显存存储）已无法满足效率和成本的双重需求。AWS通过llm-d（推测为一种低级机器描述或解耦库）和SageMaker HyperPod EKS，引入了解耦推理架构，将模型的“计算”与“显存/状态”物理分离，并结合智能调度和专家并行，实现了下一代的高性能推理服务。

作者想要传达的核心思想 作者试图传达一种范式转移：不要让昂贵的计算资源（GPU）闲置等待内存数据传输。 在MoE（混合专家）模型日益普及的今天，通过解耦架构，可以将计算密集型任务调度到擅长计算的节点（如p4/p5实例），将内存密集型任务调度到高带宽内存节点，从而极大提升集群的整体利用率。

观点的创新性和深度 这一观点的创新性在于它打破了“GPU本地显存必须容纳整个模型”的传统限制。它不仅仅是简单的模型并行，而是引入了以请求为中心的动态调度。深度在于它针对MoE模型（如Mixtral, GPT-4）的特性，通过“专家并行”让不同专家可以分布在不同的物理节点上，只有在激活时才通过网络拉取，这比静态的张量并行更具弹性。

为什么这个观点重要 这一观点直击当前GenAI落地的最大痛点：成本与延迟。随着模型参数迈向万亿级别，全量加载推理极其昂贵。解耦推理允许用户用更少的资源服务更大的模型，或者在相同资源下服务更多用户，这是企业级LLM应用能否盈利的关键分水岭。

2. 关键技术要点

涉及的关键技术或概念

解耦推理：将推理工作负载分解为计算和内存两个独立的平面。
llm-d：AWS推出的底层抽象层/库，用于管理模型分片、节点间通信和调度逻辑。
智能请求调度：在请求进入时，动态决定将其发送到哪个计算节点，并预取所需的模型权重。
专家并行：针对混合专家模型的特定并行策略，不同的专家驻留在不同的GPU组上。

技术原理和实现方式

架构分离：在SageMaker HyperPod EKS上，通过Kubernetes自定义资源定义（CRD）区分“计算节点”和“内存节点”。
数据流：当用户请求到达时，调度器识别该Token激活了哪些专家（Expert 1, Expert 3…）。如果计算节点本地没有这些专家的权重，llm-d会通过高带宽网络（如EFA）从远程内存节点异步预取权重到计算节点的HBM（高带宽内存）中，同时进行当前Step的计算。
llm-d的角色：它充当了“翻译官”和“指挥官”，屏蔽了底层硬件的异构性，自动处理张量的分发和聚合。

技术难点和解决方案

难点：网络延迟。解耦意味着计算节点需要频繁从其他节点拉取权重，网络容易成为瓶颈。
解决方案：利用AWS的EFA（Elastic Fabric Adapter）和OSI（LibOS）技术实现RDMA旁路，极大降低网络延迟。同时，通过预取技术掩盖网络传输时间。
难点：调度复杂性。如何避免多个请求同时抢占同一个专家导致排队？
解决方案：智能调度器维护全局状态视图，进行批处理优化，确保计算流水线不断流。

技术创新点分析 最大的创新在于**“以计算为中心”而非“以数据为中心”的视角转换**。传统系统尽量让数据靠近计算，而解耦推理承认物理限制，转而通过极低延迟的网络和高并发调度，让计算去“寻找”数据，实现了资源的解耦和独立扩展。

3. 实际应用价值

对实际工作的指导意义 对于AI架构师而言，这意味着在选型时不再需要购买那些极其昂贵、显存巨大的单体GPU（如不再必须等待显存巨大的特定硬件），而是可以组合使用高性价比的计算卡和高带宽的内存卡。

可以应用到哪些场景

超大模型推理：服务于参数量在100B+以上的模型，如GPT-4级别的模型。
混合专家模型：特别是像Mixtral 8x7B或Grok-1这类架构，解耦推理能极大减少显存浪费。
高并发API服务：需要同时处理成千上万个用户请求的SaaS平台。

需要注意的问题

网络依赖：此架构极度依赖集群内部的高速互联网络，如果在没有EFA/InfiniBand的普通网络上部署，性能会断崖式下跌。
系统复杂度：运维Kubernetes集群、监控llm-d组件、处理节点故障的复杂度远高于单机部署。

实施建议 建议先在非关键业务的小规模MoE模型上进行验证，测试网络延迟对首字生成时间（TTFT）的影响。确认收益后再迁移核心业务。

4. 行业影响分析

对行业的启示 这标志着云厂商正在从“卖更大的GPU”转向“卖更聪明的系统架构”。AWS通过软件定义的方式（llm-d）提升了硬件利用率，这可能会迫使竞争对手（如NVIDIA的NIM、Google的TPU服务）加速推出类似的 disaggregated 服务方案。

可能带来的变革 推理服务的计费模式可能会发生变化。不再是按GPU小时计费，而是可能按“计算单位”和“内存租用”分别计费，或者按“Token数+激活显存”计费。

相关领域的发展趋势

存算分离：这一概念在数据库领域（如Snowflake）已很成熟，现在正式全面进入AI领域。
模型路由即服务：未来的推理集群将更像一个动态的微服务网格，模型切片是流动的。

对行业格局的影响 强化了AWS在“超大规模AI集群”领域的领导地位。通过SageMaker HyperPod锁定需要大规模训练和推理的客户，构建了比单纯提供GPU虚拟机更深的技术护城河。

5. 延伸思考

引发的其他思考 如果推理可以解耦，那么训练是否也可以进一步解耦？目前的训练已经使用了3D并行，但未来是否会出现“云端参数服务器”与“本地计算节点”跨地域解耦的训练模式？（虽然受限于延迟目前很难，但值得思考）。

可以拓展的方向

冷热数据分层：将不常用的专家权重放在SSD甚至S3上，常用的放在HBM上，形成多级缓存。
多租户隔离：在解耦架构下，如何保证不同租户的数据在通过网络传输时的安全性。

需要进一步研究的问题 llm-d与开源框架（如vLLM, TGI, TensorRT-LLM）的兼容性如何？它是一个封闭的生态，还是可以接入标准的Hugging Face模型？

未来发展趋势 未来的推理节点可能不再需要任何本地显存，纯粹依靠计算单元和超大L3缓存，所有模型权重都通过片上光网络实时获取。

6. 实践建议

如何应用到自己的项目

评估模型：如果你正在使用或计划使用MoE架构的模型（如Mixtral），且部署规模超过8卡，这是首选方案。
基础设施准备：确保你的VPC和EKS集群配置了支持EFA的实例组（如P4d/P5d）。
容器化：熟悉如何在SageMaker HyperPod中部署基于Kubernetes的推理工作负载。

具体的行动建议

阅读llm-d的GitHub文档（如果开源）或AWS官方技术白皮书。
在AWS控制台中申请SageMaker HyperPod的访问权限。
使用基准工具（如Anyscale LLMPerf）对比解耦架构与传统张量并行的吞吐量差异。

需要补充的知识

Kubernetes Operators：理解如何通过K8s扩展资源。
RDMA网络原理：理解零拷贝网络技术。
MoE模型架构：深入理解Gate Network和Expert Load Balancing。

实践中的注意事项

监控网络利用率（Network Bytes In/Out），如果网络打满，计算单元就会饥饿。
注意超时配置，解耦架构下的请求链路更长，可能需要调整客户端的超时时间。

7. 案例分析

结合实际案例说明 假设一家金融科技公司正在部署一个700亿参数的金融分析模型。

传统方案：需要8张A100（80GB）显卡，总显存640GB。但推理时GPU利用率往往只有40%，大量显存闲置，计算单元也在等待数据。
解构方案：使用llm-d，将模型切片分布在4张计算卡和4张内存卡上。
结果：成本可能降低30%，因为内存卡比计算卡便宜；同时吞吐量提升，因为可以灵活扩展计算节点来应对突发流量。

成功案例分析 AWS内部或早期采用者（如Anthropic如果在AWS上训练/推理Claude 3）很可能采用了此类技术。通过解耦，他们能够在不增加物理机柜空间的情况下，通过增加计算密度的节点来提升API的QPS（每秒查询率）。

失败案例反思 如果在一个网络拓扑陈旧的集群上强行部署，或者模型太小（如7B模型），解耦带来的网络开销会超过收益，导致性能反而不如单机部署。这说明技术选型必须匹配规模。

经验教训总结 不要为了新技术而使用新技术。只有当模型大到无法放入单机，或者并发量高到单体无法支撑时，Disaggregated Inference的优势才能体现。

8. 哲学与逻辑：论证地图

中心命题 在超大规模LLM推理场景下，基于llm-d的解耦推理架构在成本效益和资源利用率上显著优于传统的单体GPU架构。

支撑理由与依据

资源利用率：传统架构受限于单节点显存上限，导致计算资源（GPU核心）被迫闲置等待数据搬运；解耦架构允许独立扩展计算和内存，依据是Amdahl定律（通过优化存储瓶颈提升系统加速比）。
MoE适配性：MoE模型推理时具有稀疏性（每次只激活部分参数），解耦架构天然支持动态加载专家，依据是稀疏模型计算理论。
成本弹性：计算型实例（如p5）与内存型实例的成本曲线不同，解耦组合通常比购买超大显存单体实例更便宜，依据是云经济学中的资源组合优化原理。

反例或边界条件

延迟敏感型应用：如果应用对首字延迟（TTFT）要求极低（如实时语音对话），解耦带来的网络跳数可能会

最佳实践

最佳实践指南

实践 1：架构解耦与资源独立扩展

说明: 利用 llm-d 实现 disaggregated inference（解耦推理），将计算密集型任务（如 Transformer 层计算）与内存密集型任务（如 KV Cache 存储）分离。这种架构允许用户根据实际需求独立扩展计算实例和内存实例，避免了传统架构中因内存瓶颈导致昂贵 GPU 资源浪费的问题。

实施步骤:

评估工作负载对计算吞吐量和内存容量的具体需求比例。
在 AWS 上配置分离的计算实例和内存实例，通过 llm-d 建立低延迟通信通道。
根据模型大小和并发请求量，独立调整内存节点的数量，而不影响计算节点的配置。

注意事项: 确保计算节点与内存节点之间的网络带宽足够高，以避免数据传输成为瓶颈。

实践 2：优化 KV Cache 管理

说明: 在解耦架构中，KV Cache 的管理是性能关键。llm-d 允许将 KV Cache 存储在专门的内存节点上。最佳实践包括实施高效的缓存预取策略和淘汰机制，以最大限度地提高缓存命中率，从而减少重新计算的开销。

实施步骤:

实施监控机制，分析 KV Cache 的命中率和访问模式。
根据业务场景（如长文本生成或高并发短请求）调整内存分配策略。
配置自动化的缓存清理工具，确保在多租户环境下的内存隔离。

注意事项: 对于长上下文场景，需特别关注内存碎片整理，防止长时间运行后性能下降。

实践 3：利用 Spot 实例降低成本

说明: 由于计算与存储解耦，计算节点通常是无状态的。这使得在 AWS 上使用 Spot 实例进行推理计算成为可能。Spot 实例价格通常比按需实例低 90%，且因为状态存储在独立的内存节点中，计算节点的中断不会导致上下文丢失。

实施步骤:

将推理服务部署配置为支持 Spot 实例的中断通知机制。
配置 llm-d 驱动，使其能够在计算实例被回收时，快速将请求重新路由到新的计算实例，同时保持与原内存节点的连接。
设置混合实例策略，部分使用按需实例作为基准，部分使用 Spot 实例应对突发流量。

注意事项: 必须实现健壮的检查点机制，确保在计算节点极快被回收时，内存中的状态能够被新节点无缝接管。

实践 4：动态批处理与请求调度

说明: 为了最大化解耦架构的吞吐量，应实施动态批处理策略。llm-d 架构允许更灵活的调度，因为计算资源不再受限于单个节点的显存大小。调度器应能够跨多个计算节点动态组合请求，以提高 GPU 利用率。

实施步骤:

部署支持 Continuous Batching 或 Dynamic Batching 的调度器。
调整批处理超时时间和最大批次大小参数，以平衡延迟和吞吐量。
利用 llm-d 的特性，让调度器感知全局计算资源池，而非局限于单机。

注意事项: 在追求高吞吐量的批处理大小时，需严格监控尾延迟，确保满足 SLA 要求。

实践 5：网络通信优化

说明: Disaggregated Inference 严重依赖于计算节点与内存节点之间的数据传输速度。最佳实践是优化网络栈，减少通信延迟，包括使用高速互连技术（如 AWS 的 Elastic Fabric Adapter - EFA）和优化数据序列化协议。

实施步骤:

在计算和内存实例组上启用 EFA 或类似的高速网络接口，支持 RDMA。
优化 llm-d 的数据传输协议，尽量减少 TCP/IP 栈的开销。
将相关节点放置在同一个 Placement Group 内，以最小化物理机之间的网络跳数。

注意事项: 网络优化可能涉及特定的实例类型选择，需验证成本效益比。

实践 6：精细化监控与自动伸缩

说明: 解耦架构带来了两个独立的伸缩维度。实施全面的监控体系，分别追踪计算负载（GPU 利用率）和内存负载（KV Cache 占用率），并据此配置独立的自动伸缩策略。

实施步骤:

设置 CloudWatch 或 Prometheus 告警，分别针对 GPU 利用率和远程内存使用率。
配置 AWS Auto Scaling 组，当计算队列积压时自动增加计算节点，当内存使用率接近阈值时自动扩展内存节点。
定期审查伸缩策略的触发阈值，以适应流量模式的变化。

注意事项: 避免出现“伸缩震荡”，即因指标波动导致频繁的实例创建和销毁，这会增加不稳定性和成本。

学习要点

基于提供的标题和来源（AWS博客关于llm-d的解耦推理），以下是关于该技术发布的5个关键要点总结：
AWS推出了由llm-d驱动的解耦推理架构，彻底改变了传统AI推理中计算与内存必须紧耦合的限制。
该架构通过将计算（GPU）与内存（显存）分离，允许独立扩展资源，从而显著降低了部署大型语言模型（LLM）的硬件成本。
利用这一技术，客户可以在不增加昂贵GPU的情况下，通过增加低成本内存来支持更大的模型上下文或更高的并发量。
llm-d作为核心组件，能够高效地在分离的计算节点和内存池之间管理数据传输，确保推理性能不受物理分离的影响。
这一创新为在AWS云端运行高参数量的大模型提供了更具性价比和弹性的基础设施解决方案。

引用

文章/节目: https://aws.amazon.com/blogs/machine-learning/introducing-disaggregated-inference-on-aws-powered-by-llm-d
RSS 源: https://aws.amazon.com/blogs/machine-learning/feed/

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：系统与基础设施 / AI 工程
标签： AWS / LLM / 推理优化 / llm-d / SageMaker / HyperPod / EKS / 专家并行
场景：大语言模型

AWS 解耦式推理技术解析：服务解耦、智能调度与专家并行
2025年Amazon SageMaker AI增强可观测性与模型定制托管功能
Amazon SageMaker AI 2025回顾：可观测性与模型定制托管增强
2025年Amazon SageMaker AI回顾：可观测性、模型定制与托管增强
2025年回顾：SageMaker AI提升可观测性并优化模型定制与托管 本文由 AI Stack 自动生成，包含深度分析与方法论思考。

AI Stack

AWS 推出基于 LLM-d 的分离式推理技术及 SageMaker HyperPod 实践