AWS 推出基于 llm-d 的分离式推理技术

基本信息

来源: AWS Machine Learning Blog (blog)
发布时间: 2026-03-16T16:55:53+00:00
链接: https://aws.amazon.com/blogs/machine-learning/introducing-disaggregated-inference-on-aws-powered-by-llm-d

摘要/简介

在本篇博文中，我们介绍了下一代推理能力背后的概念，包括分离式服务、智能请求调度和专家并行。我们探讨了它们的优势，并演示了如何通过 Amazon SageMaker HyperPod EKS 实现这些功能，从而在推理性能、资源利用率和运营效率方面取得显著提升。

导语

随着大模型应用规模的扩大，传统的单体推理架构在资源利用率与成本控制上面临挑战。本文深入探讨了由 llm-d 驱动的 AWS 分离式推理技术，解析其如何通过解耦服务与智能调度突破性能瓶颈。通过阅读本文，您将掌握利用 Amazon SageMaker HyperPod EKS 落地该技术的具体方法，从而有效提升推理效率并优化基础设施的运营表现。

摘要

AWS 基于 llm-d 的解耦推理技术概要

本文介绍了由 llm-d 驱动的下一代 AWS 推理能力，重点探讨了三项核心概念及其在 Amazon SageMaker HyperPod EKS 上的实现优势。主要内容总结如下：

1. 核心概念

解耦服务： 将推理过程的不同组件（如计算与存储）分离，以独立扩展和优化资源。
智能请求调度： 高效分配计算资源，优化请求处理流程。
专家并行： 一种高级并行化策略，用于加速大模型的推理。

2. 主要收益 通过在 Amazon SageMaker HyperPod EKS 上实施这些技术，用户可以获得以下显著改进：

推理性能提升：更快的模型响应速度。
资源利用率提高：更有效地使用底层硬件。
运营效率优化：简化操作流程，降低管理复杂度。

简而言之，该方案旨在通过先进的架构和调度策略，帮助用户在 AWS 平台上实现更高效、更强大的 AI 模型部署。

文章中心观点 AWS通过推出基于llm-d的解耦推理架构，旨在打破模型服务与底层GPU资源的静态绑定，利用专家并行和智能调度实现极致的吞吐量优化，从而在SageMaker HyperPod上重塑大模型推理的效率边界。

支撑理由与深度评价

1. 推理架构的“解耦”是应对长尾延迟和资源碎片化的必然演进

事实陈述：文章提出将推理请求处理与底层计算资源分离。
深度分析：在传统推理中，一个请求通常被路由到固定的GPU节点直至完成。如果遇到处理长文本或复杂逻辑（长尾任务），该节点会被长时间占用，导致后续排队请求产生长尾延迟。解耦架构允许将请求切片或动态分配给空闲的计算单元。这种从“以卡为中心”到“以任务为中心”的转变，类似于云计算从虚拟机向容器的演进，是提升集群整体利用率的关键技术。
反例/边界条件：解耦引入了额外的网络开销。对于极低延迟要求的实时交互场景，网络传输时间可能超过解耦带来的计算收益。

2. 专家并行从训练领域迁移至推理场景，实现了稀疏激活的工程化落地

事实陈述：文章强调了利用“专家并行”来服务MoE（混合专家模型）。
深度分析：MoE模型在训练时使用专家并行并不稀奇，但将其应用于推理是一个显著的架构优化。传统的密集模型推理需要加载全部参数，而MoE推理只需激活部分参数。AWS的方案暗示了其底层网络（如EFA）和调度器已经能够处理推理级别的微秒级路由决策，这使得在显存受限的情况下服务超大参数模型成为可能，且成本更低。
反例/边界条件：MoE推理对显存容量的优化是明显的，但对显存带宽的挑战巨大。如果不同专家频繁加载卸载，带宽可能成为瓶颈，导致Token生成首字延迟（TTFT）不稳定。

3. 智能调度器是“ disaggregated inference”的大脑，解决了负载不均问题

事实陈述：文章提及了“智能请求调度”。
你的推断：这不仅仅是简单的负载均衡，而是基于模型状态的深度感知。调度器需要知道当前每个GPU上的KV Cache占用情况、计算利用率以及正在处理的Batch大小。AWS可能利用llm-d实现了一个中心化的控制平面，能够将Prefill（预填充，计算密集型）和Decode（解码，内存带宽密集型）阶段拆分到不同的资源池上处理，这是目前提升吞吐量的主流方向。
反例/边界条件：中心化的调度器本身可能成为单点故障或性能瓶颈。当并发请求量达到数十万级别时，调度决策的延迟可能超过实际推理时间。

4. 与SageMaker HyperPod EKS的深度绑定，构建了高准入门槛的护城河

事实陈述：方案落地在Amazon SageMaker HyperPod EKS。
作者观点：这表明该技术并非通用的开源插件，而是高度依赖AWS底层基础设施（如Nitro系统、EFA网络）的定制化方案。虽然这为AWS用户提供了极致的性能，但也增加了厂商锁定风险。
反例/边界条件：对于多云部署的用户，这种深度绑定可能导致迁移成本高昂，无法在Google Cloud或Azure上复现相同的性能表现。

实际应用建议

评估负载特征：如果你的业务主要是高并发、短文本的通用问答，传统的连续批处理可能已经足够且更稳定。只有当你在处理超长上下文或混合了极短和极长任务的复杂场景时，才应考虑迁移至此类解耦架构。
关注网络配置：部署此类架构时，务必检查实例之间的网络带宽。解耦推理将产生大量的中间数据传输，如果使用普通的TCP网络而非SRD（如AWS的EFA）或RDMA，性能可能会反而下降。
灰度验证TTFT指标：在上线初期，重点监控“首字生成时间”。解耦架构往往能提升总体吞吐量（TPS），但可能会因为请求在节点间搬运而牺牲单个请求的首字响应速度。

可验证的检查方式

吞吐量vs延迟曲线对比实验：
- 指标：在并发度从1递增至100的过程中，绘制TPS（每秒请求数）与P99 Latency的曲线。
- 验证点：观察在并发极高时，解耦架构是否比传统架构能维持更平缓的延迟上升斜率。
资源利用率监控：
- 指标：使用NVIDIA DCGM或CloudWatch监控GPU的SM（流多处理器）利用率和显存带宽利用率。
- 验证点：检查是否存在“计算与内存分离”的现象（即部分GPU负责计算满载，部分负责数据搬运满载），这证明了调度器确实在工作。
长尾任务测试：
- 实验：向系统发送混合请求流，其中90%为短Token请求，10%为长Token请求。
- 观察窗口：观察短请求是否被长请求阻塞。在解耦架构下，短请求应能通过其他空闲通道快速完成。

技术分析

基于您提供的文章标题、摘要以及上下文线索（AWS、llm-d、SageMaker HyperPod EKS、Disaggregated Inference），以下是对该技术文章的深度分析。

AWS 解聚推理技术深度分析报告

1. 核心观点深度解读

文章的主要观点 文章的核心观点是：传统的“单体”大模型推理架构已无法满足下一代超大规模模型（如 MoE 架构模型）在成本、延迟和吞吐量上的综合需求，必须转向“解聚”架构。 AWS 通过 llm-d（一种开源的 disaggregated inference 框架）在 SageMaker HyperPod EKS 上实现了这一架构，将计算（GPU/CPU）与内存（显存/系统内存）分离，并结合智能调度和专家并行，实现了高性能、低成本的推理服务。

作者想要传达的核心思想 作者试图传达“专有硬件解耦”的思想。即：不再需要每一张 GPU 卡都拥有完整的模型副本。通过将模型参数存储在集中式的高带宽内存池中，并按需将计算任务调度到空闲的计算节点，可以打破“内存墙”的限制，极大提升 GPU 的利用率。

观点的创新性和深度

创新性：将数据中心级别的“存算分离”概念下沉到了模型推理层面。传统的推理是“以卡为单位”，一张卡加载一部分模型；解聚推理则是“以任务为单位”，计算和存储资源独立扩缩容。
深度：这不仅仅是工程优化，而是对现有冯·诺依曼架构在 AI 领域瓶颈的一次修正。它直面了混合专家模型中“专家负载不均衡”的痛点，提出了通过动态路由解决该问题的深层逻辑。

为什么这个观点重要 随着模型参数量迈向万亿级别，显存成本和显存带宽成为主要瓶颈。解聚架构允许用户使用更小显存的 GPU（如无需购买 80GB 显存的昂贵显卡）运行大模型，或者让 MoE 模型中的长尾专家也能被高效激活。这对降低 AI 落地成本、提升多租户并发能力具有决定性意义。

2. 关键技术要点

涉及的关键技术或概念

Disaggregated Serving (解聚服务)：将模型参数存储与模型计算执行在物理上分离。
llm-d：AWS 提出的开源框架/库，用于管理这种分离架构的调度。
Expert Parallelism (专家并行)：针对混合专家模型的并行策略，不同的 MoE 专家分布在不同的计算节点上。
Intelligent Request Scheduling (智能请求调度)：调度器不仅分配 GPU，还要根据模型分片的位置和网络拓扑，最小化数据传输延迟。

技术原理和实现方式

架构层面：系统分为“计算平面”和“内存平面”。当推理请求到达时，llm-d 调度器识别当前 Batch 需要激活的 MoE 专家或模型层，从远程内存池（NVMe over Fabric 或远程 GPU 显存）拉取权重到本地计算节点的 HBM/GPU 内存中进行计算。
调度层面：利用 Kubernetes (EKS) 作为底层编排，SageMaker HyperPod 提供裸金属性能。调度器维护一个全局视图，知道哪些 GPU 在计算，哪些模型分块在哪些节点，从而进行类似“操作系统页面置换”的优化，但针对的是张量数据。

技术难点和解决方案

难点 1：延迟。从远程拉取权重比本地读取慢得多。
- 解决方案：利用 Prefetching (预取) 和 Cache (缓存) 策略。预测下一步需要的专家并提前传输；同时利用高带宽网络（如 EFA）和 RDMA 技术。
难点 2：网络拥塞。解聚后，网络带宽成为新的瓶颈。
- 解决方案：文章可能暗示使用 AWS 的 Nitro 系统和高速集群网络，确保计算和存储节点之间的通信吞吐量接近显存带宽。

技术创新点分析 最大的创新在于将 MoE 的动态特性 与 硬件的解聚 结合。MoE 模型每次推理只用到总参数的一小部分（如 10%），这天然适合解聚架构——你不需要把所有参数都放在本地，只需按需调入活跃的专家参数。llm-d 可能正是针对这种稀疏性进行了专门优化。

3. 实际应用价值

对实际工作的指导意义 对于正在构建 AI 基础设施的团队，这标志着“全量加载模型”时代的终结。架构师需要开始考虑如何构建分层存储体系（热数据在 GPU，温数据在 CPU 内存，冷数据在分布式存储）。

可以应用到哪些场景

超大规模 MoE 模型部署：如 Mixtral 8x7B, Grok-1 等模型，单卡甚至单机无法装下全部专家时。
高并发、低成本推理服务：不同用户请求可能触发不同专家，解聚架构允许用较少的 GPU 资源服务更多用户（通过动态复用计算单元）。
多模型共享：在同一套解聚基础设施上，同时部署多个不同的大模型，共享底层的内存池，提高资源利用率。

需要注意的问题

网络敏感性：如果你的集群网络没有 RDMA 或带宽不足，解聚推理的性能会断崖式下跌，远不如本地推理。
系统复杂度：运维复杂度显著增加，需要监控计算和存储两个维度的指标。

实施建议 不要在早期尝试。建议在模型规模超过单机集群承载能力（如 >500B 参数），或者使用 MoE 架构且专家激活率极低时，再评估引入此类架构。

4. 行业影响分析

对行业的启示 AWS 的这一动作表明，云厂商的竞争焦点已从“算力堆砌”（谁有更多 H100）转向“系统效率”（谁能更聪明地使用 H100）。未来的 AI 基础设施将越来越像分布式数据库系统。

可能带来的变革

硬件解耦：未来可能不再需要购买超大显存的专用推理卡（如 H200），普通的计算卡配合超高速网络集群即可完成推理任务。
软件定义硬件：通过 llm-d 这样的中间件，硬件资源被虚拟化，用户看到的是一个巨大的“推理虚拟机”。

相关领域的发展趋势 Ray、vLLM、Triton Inference Server 等推理框架可能会跟进类似的解聚特性。Kubernetes 在 AI 工作负载中的统治地位将进一步巩固。

对行业格局的影响 这巩固了拥有强大网络技术（如 Nitro, EFA）和全栈能力的云厂商（AWS, Google, Azure）的优势。对于缺乏底层网络优化能力的中小云厂商或私有云部署，将难以复现这种性能优势。

5. 延伸思考

引发的其他思考

冷启动问题：在解聚架构下，当一个冷门专家首次被调用时，从磁盘/远端内存加载的延迟如何处理？是否需要“预热”机制？
一致性协议：在模型微调或更新时，如何保证分散在不同内存节点中的权重一致性？

可以拓展的方向

训练端解聚：如果推理可以解聚，训练是否也可以？事实上微软 DeepSpeed 等已经在做，但推理对延迟更敏感，难度更高。
跨数据中心解聚：未来是否可以通过光速延迟极低的长距离网络，实现跨 AZ（可用区）的解聚推理？

需要进一步研究的问题 llm-d 的具体调度算法是基于规则还是强化学习？它如何处理网络抖动带来的长尾延迟？

7. 案例分析

结合实际案例说明 假设一家公司部署了 Mixtral 8x7B 模型。

传统模式：需要 4-5 张 A100/H100 卡将模型全部载入显存。如果用户请求很少，GPU 空闲但显存被占满，无法运行其他模型。
解聚模式：模型参数存放在 CPU 内存或远端 NVMe 阵列中。当请求进来，只把当前需要的 2 个专家加载到 1 张 GPU 上计算。

成功案例分析 AWS 内部或早期采用者可能在 Amazon Bedrock 后台使用了该技术。这使得 Bedrock 可以在同一个物理集群上，同时为成千上万的开发者提供不同模型的 API 服务，且成本大幅降低。

失败案例反思 如果网络环境不佳（例如使用标准的 TCP 以太网），解聚推理会导致“数据传输时间 > 计算时间”，导致整体吞吐量反而不如单卡推理。这也是为什么此类技术必须在 AWS 这样具备高级网络（EFA）的环境中才能发挥价值。

经验教训总结 不要试图在通用的、网络性能低劣的公有云 VPC 中强行复现解聚推理，必须依赖云厂商提供的特定网络加速库。

8. 哲学与逻辑：论证地图

中心命题 在超大规模 AI 推理领域，Disaggregated Inference (解聚推理) 将取代单体推理架构，成为实现高性价比和高可扩展性的主流范式。

支撑理由与依据

理由 1：资源利用率最大化
- 依据：MoE 模型具有稀疏激活特性，单次推理仅需少量参数；解聚架构允许计算资源只处理当前任务所需的数据，避免闲置显存浪费。
理由 2：突破物理显存限制
- 依据：单体架构受限于单卡显存上限（如 80GB）；解聚架构通过聚合系统内存和远程存储，理论上可支持无限大的模型。
理由 3：独立的弹性伸缩
- 依据：计算密集型任务需要更多 GPU，内存密集型任务需要更多内存；解聚允许独立扩展这两者，而非被迫成对购买。

最佳实践

实践 1：合理配置计算与存储资源的分离比例

说明: 在利用 llm-d 进行解耦推理时，核心优势在于将昂贵的 GPU 计算资源（用于加载模型权重）与相对廉价的 CPU/内存资源（用于处理 KV Cache 和调度）分离开来。合理配置这两者的比例是优化成本与性能的关键。

实施步骤:

评估模型的大小和并发需求，确定所需的 GPU 实例类型（如 P5 或 P4 实例）。
配置独立的 CPU 实例组来承担非计算密集型任务，确保网络带宽足够支持两者间的数据传输。
根据实际负载测试，调整“计算节点”与“推理节点”的数量配比，避免计算节点闲置或推理节点拥堵。

注意事项: 需要确保分离架构下的网络延迟极低（建议使用 EFA 或 ENA），否则节点间通信可能成为瓶颈。

实践 2：优化模型加载与权重分发策略

说明: 解耦架构意味着模型权重需要在计算节点和推理节点之间高效流转。优化加载策略可以显著减少冷启动时间和首字延迟（TTFT）。

实施步骤:

利用 llm-d 的分层缓存机制，将高频访问的模型权重预加载到计算节点的显存中。
使用 S3 或 FSx for Lustre 作为高性能存储后端，确保权重文件能被快速拉取。
实施模型分片加载，仅在需要时将特定层的权重加载到推理节点，减少内存占用。

注意事项: 监控存储 IOPS 和吞吐量，防止存储读取速度限制了 GPU 的扩展性。

实践 3：实施精细化的自动扩缩容策略

说明: 解耦推理允许对计算前端和推理后端进行独立扩缩容。利用这一特性，可以根据请求队列长度和 GPU 利用率分别调整资源，以应对突发流量。

实施步骤:

设置基于 CloudWatch 指标的告警，分别监控 GPU 利用率和待处理请求数。
配置自动扩缩容策略：当请求积压时，优先增加低成本的 CPU 推理节点；当计算吞吐量不足时，再增加昂贵的 GPU 计算节点。
预留适量的缓冲容量以处理启动延迟，避免因扩容速度跟不上流量激增而导致超时。

注意事项: 扩容策略应考虑模型加载时间，确保新节点上线后能立即服务流量而非陷入长时间的初始化等待。

实践 4：利用 Spot 实例降低推理成本

说明: 由于解耦架构将状态管理与计算分离，使得在容错性较差但成本极低的 Spot 实例上运行部分工作负载变得可行且安全。

实施步骤:

将对中断不敏感的批处理任务或非实时推理请求调度至 Spot 实例。
使用 llm-d 的状态检查点功能，定期保存中间状态，以便在 Spot 实例被回收时能快速恢复。
混合使用 On-Demand 和 Spot 实例，确保核心服务始终有 On-Demand 实例作为保底。

注意事项: 必须实施严格的中断处理机制和健康检查，确保 Spot 实例回收时用户体验不受影响。

实践 5：强化监控与可观测性

说明: 在分布式解耦环境中，定位性能瓶颈的难度增加。必须建立端到端的监控体系，覆盖从网关入口到计算节点的全链路。

实施步骤:

集成 AWS X-Ray 或 CloudWatch Logs，追踪请求在计算节点和推理节点之间的完整路径。
重点监控节点间的数据传输延迟、序列化/反序列化开销以及显存使用率。
建立可视化仪表盘，实时展示每秒请求数（RPS）、首字延迟（TTFT）和 Token 生成吞吐量。

注意事项: 避免过度采集日志导致 I/O 阻塞，建议采用异步日志上报或采样记录。

实践 6：确保网络吞吐量与低延迟配置

说明: 解耦推理严重依赖计算节点与推理节点之间的高频数据交换。网络配置不当会直接抵消架构解耦带来的性能优势。

实施步骤:

部署实例时，确保启用 Enhanced Networking（ENA）或使用 Elastic Fabric Adapter (EFA) 以支持节点间的高带宽通信。
将计算节点组与推理节点组部署在同一个 Placement Group（集群置放群组）中，以最大程度降低物理网络延迟。
调整操作系统级别的网络参数（如缓冲区大小），以适配大流量数据包传输。

注意事项: 在跨可用区部署解耦架构时需谨慎，跨 AZ 的网络延迟可能会严重损害推理性能，建议保持在单可用区内。

学习要点

AWS 推出了基于 llm-d 的解耦推理架构，将 LLM 推理的计算与内存资源分离，以优化资源利用率
该架构通过分离计算和内存资源，允许独立扩展 GPU 和 CPU，从而降低成本并提高灵活性
解耦推理特别适合长上下文场景，因为 KV Cache 可以存储在分离的内存节点上，避免计算资源浪费
使用 llm-d 部署模型时，需要将模型权重和 KV Cache 存储在共享存储中，并通过网络在计算和内存节点间传输数据
该方案通过动态分配资源，解决了传统推理中因资源固定导致的利用率低下和成本高昂问题
解耦推理为 LLM 部署提供了新的范式，尤其适合需要处理大量长上下文请求的企业级应用

引用

文章/节目: https://aws.amazon.com/blogs/machine-learning/introducing-disaggregated-inference-on-aws-powered-by-llm-d
RSS 源: https://aws.amazon.com/blogs/machine-learning/feed/

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：系统与基础设施 / AI 工程
标签： AWS / llm-d / 推理优化 / SageMaker / EKS / 解耦架构 / MoE / 资源调度
场景：大语言模型

AI Stack

AWS 推出基于 llm-d 的分离式推理技术