Mixture-of-Depths 动态分配计算资源的注意力机制

基本信息

ArXiv ID: 2603.15619v1
分类: cs.CL
作者: Lianghui Zhu, Yuxin Fang, Bencheng Liao, Shijie Wang, Tianheng Cheng
PDF: https://arxiv.org/pdf/2603.15619v1.pdf
链接: http://arxiv.org/abs/2603.15619v1

导语

针对深层大语言模型中常见的特征信号退化问题，本文提出了 Mixture-of-Depths Attention (MoDA) 机制。该方法通过引入跨层注意力，允许模型在计算中直接访问前序层的信息，并配合硬件友好的算法设计以维持高推理效率。实验结果显示，在仅增加少量计算开销的情况下，该方法有效提升了模型性能。然而，摘要中未提及该方法在更大规模参数模型上的具体表现，这一点目前尚无法确认。

摘要

Mixture-of-Depths Attention (MoDA) 总结

背景与问题 增加深度是提升大语言模型（LLM）性能的关键手段，但随着模型层数加深，往往会遇到“信号退化”问题。浅层形成的显著特征在经过多次残差更新后会被逐渐稀释，导致深层难以有效恢复这些信息。

提出方法 为了解决这一问题，本文提出了 Mixture-of-Depths Attention (MoDA) 机制。

跨层注意力：MoDA 允许每个注意力头不仅处理当前层的序列键值对，还能直接访问来自前序层（深度键值对）的信息。
高效实现：针对非连续内存访问模式，作者设计了硬件友好的算法，使其在 64K 长序列下达到了 FlashAttention-2 效率的 97.3%。

实验结果 在 15 亿参数模型上的实验表明，MoDA 表现优异：

性能提升：在 10 个验证基准上将平均困惑度降低了 0.2，在 10 个下游任务上将平均性能提升了 2.11%。
计算成本：仅产生了 3.7% 的 FLOPs 计算开销。
架构发现：将 MoDA 与后归一化结合使用，比与前归一化结合效果更好。

结论 MoDA 被证明是一种极具潜力的深度扩展技术。代码已在 GitHub 开源。

论文评价：Mixture-of-Depths Attention (MoDA)

总体评价

该论文针对深层Transformer模型中普遍存在的“信号退化”现象，提出了Mixture-of-Depths Attention (MoDA)机制。通过引入跨层注意力连接，MoDA试图打破传统逐层处理的限制，直接利用浅层富含语义信息的特征来增强深层表示。从学术角度看，该研究触及了深度神经网络优化的核心痛点；从应用角度看，它为构建更深层、更强性能的大语言模型（LLM）提供了一种极具潜力的架构方案。

以下是基于七个维度的深入剖析：

1. 研究创新性

论文声称：现有的深层Transformer受限于逐层处理模式，导致浅层显著特征在深层被稀释；MoDA通过允许注意力头直接访问前序层的键值对，实现了“跨层注意力”。
证据：作者展示了MoDA模块的结构，证明了在计算当前层注意力时，Query可以与历史层的Key-Value进行匹配。
推断与评价：
- 架构创新：MoDA本质上是一种显式的跨层特征融合机制。传统Transformer依赖于残差连接进行隐式的特征传递，而MoDA将其转变为注意力机制内的显式查询。这类似于将DenseNet（稠密连接）的思想引入到了注意力机制的内部计算中。
- 动态路由的雏形：标题中的“Mixture”暗示了不同深度的注意力头可能关注不同层级的特征。这不仅仅是简单的跳跃连接，而可能隐含了动态深度的概念——即并非所有头都需要处理最新的层信息，部分头可以“回溯”历史信息。这种非均匀的信息处理路径是提升模型表达效率的关键创新点。

2. 理论贡献

论文声称：解决了信号退化问题，即深层难以恢复浅层形成的显著特征。
证据：基于残差更新的数学分析，表明特征幅度会随深度增加而衰减。
推断与评价：
- 信息流的视角：该研究补充了流形学习理论在LLM中的应用。它假设语义关键信息在浅层（如前几层）就已经被提取，而深层的作用是对这些信息进行复杂的推理与重组。MoDA从理论上支持了**“特征重用”比“特征提取”在深层更重要**的观点。
- 梯度流动：通过直接连接到浅层的KV，MoDA为梯度回传提供了更“高速公路”的通道，理论上缓解了梯度消失问题，使得极深网络的训练成为可能。

3. 实验验证

论文声称：MoDA在提升模型性能的同时，保持了计算效率。
证据：摘要中提到了“高效实现”以解决非连续内存访问。
推断与评价：
- 关键假设：MoDA假设跨层KV访问带来的显存带宽开销和计算量增加，可以通过更少的层数或更快的收敛速度来抵消。
- 潜在失效条件：在超长序列中，KV Cache的内存访问是主要瓶颈。如果MoDA需要频繁从显存跳跃读取不同层的KV，可能会导致内存墙问题，使得推理速度反而下降。
- 验证指标建议：
  1. 吞吐量与延迟：不仅看训练Loss，更需测试推理时的Token生成速度。
  2. 消融实验：验证“跨层”连接的具体贡献度，即对比“只看当前层”与“看所有历史层”的性能差异。

4. 应用前景

推断与评价：
- MoE架构的潜在替代：混合专家模型通过稀疏激活提升性能，但通信开销大。MoDA提供了一种在单个密集模型中通过增加“深度维度的稀疏性”来提升性能的思路，可能比MoE更容易部署和调试。
- 长上下文窗口：如果浅层保留了全局摘要信息，深层通过MoDA直接访问这些摘要，可能比RAG（检索增强生成）更高效地处理长文本。
- 边缘端部署：如果MoDA允许用较少的层数达到相同的性能（通过复用浅层特征），则可以压缩模型体积，非常适合端侧应用。

5. 可复现性

论文声称：提出了针对非连续内存访问的高效实现。
推断与评价：
- 实现难点：标准Transformer的KV Cache是顺序追加的。MoDA要求Kernel能够支持非连续的内存寻址，或者将所有历史层的KV拼接到一个连续的显存块中。这涉及到深度学习框架（如PyTorch、FlashAttention）的底层算子开发。
- 复现建议：论文必须提供自定义的CUDA Kernel代码或详细的伪代码，否则基于标准库很难复现其声称的“高效”结果。

6. 相关工作对比

对比Sparse Transformer (Longformer, BigBird)：
- 优劣：Sparse Attention是在“空间维度”（序列长度）上做稀疏，而MoDA是在“时间维度”（深度）上做连接。MoDA不丢失序列的完整性，更适合需要全局语义理解的任务。
对比Mixture-of-Experts (MoE)：
- 优劣：MoE是横向扩展（加宽），MoDA是纵向挖掘（加深）。MoDA不需要复杂的负载均衡策略，训练

技术分析

基于您提供的摘要信息，这篇论文《Mixture-of-Depths Attention (MoDA)》提出了一种旨在解决深层Transformer模型中“信号退化”问题的创新机制。以下是对该论文的深入分析报告。

深度分析报告：Mixture-of-Depths Attention (MoDA)

1. 研究背景与问题

核心问题：深度网络中的信号退化

该研究直击大语言模型（LLM）扩展中的核心痛点：随着模型层数（深度）的增加，模型性能往往不升反降，或者遇到难以训练的瓶颈。 具体而言，论文指出了一个被称为“信号退化”或“特征稀释”的现象。在标准的深层Transformer中，浅层提取的显著特征（如语义信息、句法结构）在经过数十层的残差连接和逐层处理后，其信息强度会被逐渐稀释或被噪声覆盖。深层网络难以有效恢复和利用这些浅层建立的强特征，导致深层变成了“无效层”甚至“破坏层”。

研究背景与意义

目前的LLM扩展定律主要关注参数量和数据量的增加，但对于“深度”的利用相对保守。增加深度理论上可以增加模型的容量和非线性表达能力，允许模型处理更复杂的逻辑推理。然而，由于上述的退化问题，单纯堆叠层数收益递减。MoDA的意义在于它试图打破这一瓶颈，使得构建超深且高效的语言模型成为可能，这为未来LLM的架构设计提供了一条不同于单纯扩大宽度的路径。

现有方法的局限性

残差连接的局限性：虽然残差连接缓解了梯度消失，但它们主要是在前向传播中维持信息的流动，并没有显式地解决深层特征被“稀释”的问题。
现有的跨层方法：如DenseNet或某些跳跃连接，虽然允许跨层信息流动，但往往伴随着巨大的显存占用和计算量，难以直接应用于高延迟要求的LLM推理场景。

2. 核心方法与创新

核心方法：Mixture-of-Depths Attention (MoDA)

MoDA 的核心思想是解耦“键值对”的来源，允许注意力机制在时间维度（深度）上进行混合。

跨层注意力机制：在标准的Transformer中，第 $l$ 层的注意力头只能看到第 $l-1$ 层的输出作为 Key (K) 和 Value (V)。而在 MoDA 中，每个注意力头不仅处理当前层的序列 K/V，还能直接访问来自前序层（即历史层）的 K/V 缓存。这意味着模型可以随时“回顾”浅层提取的原始特征，而不必依赖这些特征逐层传递。
硬件友好实现：这是该方法工程落地的关键。跨层访问通常意味着非连续的内存访问，这会严重破坏GPU的利用率。作者设计了特定的算法，使得这种跨层访问在 64K 长序列下仍能达到 FlashAttention-2 效率的 97.3%，几乎消除了架构创新带来的性能惩罚。

技术创新点

显式的深度特征复用：不同于隐式的残差传递，MoDA 显式地将深层与浅层连接，构建了一个“深度混合”的注意力空间。
轻量化设计：仅增加 3.7% 的 FLOPs 开销，却换来了显著的性能提升。这种“高性价比”是工业界非常看重的指标。

3. 理论基础

理论依据：信息流与注意力瓶颈

特征保持理论：深层网络之所以难以训练，是因为中间层丢失了输入信号中的高频或显著信息。MoDA 基于“注意力可以作为一种信息检索手段”的理论假设，认为通过让深层直接检索浅层的 K/V，可以绕过中间层的噪声干扰，建立一条低损耗的信息高速公路。
混合专家的变体：从某种角度看，MoDA 将“深度”视为一种维度，类似于 MoE（Mixture of Experts）在宽度维度上选择专家，MoDA 在深度维度上选择“信息源”。

归纳偏置

该方法引入了一种归纳偏置：早期的特征表示对于后续的所有层都是至关重要的，且不应被过度转换。 它假设浅层提取的某些特征（如实体识别、关键词定位）在深层任务中依然有效。

4. 实验与结果

实验设计

基准模型：基于 1.5B（15亿）参数规模的模型进行验证，这是一个非常具有代表性的中等规模模型，既能验证有效性，又具有落地可行性。
评估任务：涵盖了困惑度验证（10个基准）和下游任务理解（10个任务）。

关键发现

性能增益：平均困惑度降低 0.2，下游任务平均提升 2.11%。在 1.5B 这个量级上，这样的提升是显著的，通常需要增加大量参数才能达到类似效果。
架构协同性：Post-Norm（后归一化） 与 MoDA 的结合优于 Pre-Norm（前归一化）。这是一个非常有趣且反直觉的发现。
- 分析：Pre-Norm 通常被认为更有利于梯度流动和深层训练。但 MoDA 提供了额外的信息通路，可能缓解了 Pre-Norm 带来的某些表示瓶颈，或者 Post-Norm 的特性更好地保留了 MoDA 引入的跨层特征强度。这表明 MoDA 改变了模型对归一化位置的敏感度。

局限性

显存占用：虽然 FLOPs 增加很少，但为了存储前序层的 K/V，KV Cache 的显存占用会显著增加。这可能限制了在极大上下文长度或显存受限设备上的部署。
实验规模：目前仅在 1.5B 模型上验证。虽然理论上有效，但在 70B+ 规模的模型上，这种跨层注意力的收益是否会因为模型本身容量足够大而边际效应递减，尚需验证。

5. 应用前景

实际应用场景

高性能推理引擎：对于需要长上下文理解的场景，MoDA 能让模型更好地“记住”长文本开头的关键信息，减少“迷失中间”现象。
端侧模型优化：在参数量受限的端侧模型（如 1B-3B 规格）中，MoDA 提供了一种在不显著增加计算量的前提下提升模型智能水平的方法，非常适合手机/PC 端的本地大模型部署。

产业化可能性

代码已开源，且硬件效率高（97.3% FlashAttention-2），这意味着它很容易被集成到现有的推理框架（如 vLLM, TensorRT-LLM）中。其低 FLOPs 开销保证了推理延迟不会显著增加，具有极高的产业化潜力。

6. 研究启示

对领域的启示

深度维度的再挖掘：过去的研究集中在宽度或注意力机制本身的改进，MoDA 提醒我们“层与层之间的关系”是一个未被充分挖掘的资源库。
打破线性堆叠：未来的网络架构可能不再是简单的 Layer 1 -> Layer 2 -> Layer 3，而是更复杂的图结构，层与层之间可以灵活地建立注意力连接。

未来方向

动态路由：目前的 MoDA 可能是静态连接或基于简单规则的，未来可以结合动态路由机制，让模型自动学习“在当前层应该去回顾哪一层的历史信息”。
KV Cache 压缩：为了配合 MoDA，必须研发更高效的跨层 KV 压缩技术，以解决显存占用问题。

7. 学习建议

适合人群

从事 LLM 架构设计的研究员和工程师。
关注模型推理性能优化的开发者。
对深度学习中的注意力机制有深入了解的学生。

前置知识

Transformer 架构细节：特别是 MHA (Multi-Head Attention) 和 FFN 的计算流程。
FlashAttention 原理：理解 IO 感知和内存平铺算法，有助于理解作者如何优化非连续内存访问。
归一化方法：理解 Pre-Norm 和 Post-Norm 对梯度和数值稳定性的影响。

阅读顺序

先阅读摘要和引言，理解“信号退化”问题。
仔细阅读方法部分，重点看它是如何重构 KV Cache 的索引机制的。
关注实验部分关于 Post-Norm vs Pre-Norm 的讨论，这是理解该方法特性的关键。
最后阅读附录或代码，了解具体的 Kernel 优化实现。

8. 相关工作对比

对比维度	标准Transformer	MoDA (本文)	DenseNet / Skip Connections	Mixture of Experts (MoE)
连接方式	相邻层连接	跨层注意力连接	跨层特征拼接	跨层专家激活
计算开销	基准	+3.7% FLOPs	显存和计算量剧增	计算量稀疏化，但通信大
解决痛点	通用基线	深层信号退化	特征复用	模型容量扩展
显存占用	线性增长	高 (需存历史KV)	极高	中等

创新性评估

MoDA 在“注意力机制”和“网络深度”之间找到了一个新的平衡点。它不像 MoE 那样引入复杂的负载均衡问题，也不像 DenseNet 那样显存爆炸。它巧妙地利用了生成式推理中必然存在的 KV Cache，将其复用为跨层信息源，属于**“零额外显存架构”（相对于推理必须的Cache而言）**的创新，但在训练时显存压力较大。

9. 研究哲学：可证伪性与边界

关键假设与先验

假设：浅层包含的“显著特征”在深层依然有效且未被后续层破坏。
归纳偏置：信息的直接传递优于逐层变换。

失败边界

任务类型：如果任务极度依赖于深层的抽象特征（例如需要极度复杂的逻辑推演，且浅层的原始特征包含大量噪声），MoDA 引入的浅层噪声可能会干扰深层的纯净表示。
数据分布：如果数据分布发生剧烈变化（Out-of-distribution），浅层提取的通用特征可能不再适用，而模型如果过度依赖这些“过时”的浅层特征，泛化能力可能会受限。

结论性质

经验事实：在 1.5B 模型上，MoDA + Post-Norm 效果更好，且计算开销低。
理论推断：MoDA 能够缓解信号退化。这一推断通过困惑度下降得到了间接验证，但缺乏对“信号”本身的定量分析（例如追踪特定token的信息熵在不同层的变化）。

方法 vs. 理解

这篇论文更多推进的是**“方法”**。它提供了一种工程上极其优雅的解决方案，来绕过深度学习的顽疾。它并没有完全从理论上解释“为什么信号会退化”，而是通过提供一条“旁路”让这个问题变得不再致命。这种“工程驱动理论”的路径是当前 LLM

研究最佳实践

最佳实践指南

实践 1：动态路由机制的配置与优化

说明: Mixture-of-Depths (MoD) 的核心在于通过路由机制动态决定哪些 Token 参与 Transformer 的计算（Self-Attention 或 MLP）。为了在保持模型性能的同时最大化计算效率，必须精心配置路由策略。这涉及设定合理的 Token 容量，即每层只有一部分 Token 被选中参与主要计算，其余 Token 则跳过或通过残差连接直接传递。

实施步骤:

设定容量参数: 根据模型规模和硬件限制，设定每层参与计算的 Token 比例（例如 50% 或 30%）。
选择路由器: 实现一个轻量级的路由网络（通常为线性层 + Softmax 或 Top-k 采样），用于预测 Token 的重要性得分。
训练稳定性: 在训练初期，引入温度系数或噪声来平滑路由决策，防止模型过早陷入局部最优的固定路径。

注意事项:

避免容量设置过低，否则可能导致信息丢失，模型收敛困难。
路由决策必须是可微的，或者使用 Gumbel-Softmax 等技巧以确保梯度能够回传。

实践 2：位置感知的 Token 选择

说明: 标准的 MoD 路由可能会倾向于总是选择序列开头或特定位置的 Token（例如 BOS token），导致其他位置的信息被忽略。最佳实践要求在路由逻辑中引入位置感知或偏置机制，确保计算资源在序列长度上均匀分配，或者根据任务需求动态分配给关键上下文。

实施步骤:

分析路由分布: 在验证阶段监控被选中 Token 的位置分布，检查是否存在位置偏差。
引入位置偏置: 在路由器的输入中加入位置编码，或者对特定位置的 Token 施加轻微的惩罚/奖励。
Top-K 采样策略: 使用 Top-K 算法而非单纯的阈值截断，强制模型在序列的不同位置选择固定数量的 Token。

注意事项:

确保位置偏置不会掩盖 Token 内容本身的重要性。
在处理长文本任务时，要特别注意避免长距离依赖信息的丢失。

实践 3：残差连接与归一化的调整

说明: 在 MoD 架构中，未被选中的 Token 会跳过 Attention 或 MLP 层。为了维持训练的稳定性，必须正确处理这些跳跃连接的梯度流和数值尺度。标准 Transformer 的 LayerNorm 或 RMSNorm 配置需要适应这种非均匀的计算流。

实施步骤:

Pre-Norm 配置: 强烈建议采用 Pre-Norm 结构（即 Norm 在 Attention/MLP 之前），这有助于梯度在深层网络中的流动。
统一归一化: 确保被选中和未被选中的 Token 在合并回主路径时，数值尺度保持一致。
辅助损失: 监控未被选中 Token 的梯度范数，防止“死神经元”现象。

注意事项:

不要在路由决策之前应用归一化，以免位置信息或幅度信息影响路由的公平性。
检查混合路径（计算路径与跳跃路径）合并后的方差是否稳定。

实践 4：计算感知的训练策略

说明: MoD 的目标是减少 FLOPs（浮点运算次数），但在实际训练中，稀疏计算并不一定能直接转化为线性的速度提升，除非硬件和软件栈得到优化。训练策略应侧重于让模型学会“何时计算”，而不仅仅是“计算什么”。

实施步骤:

FLOPs 正则化: 在损失函数中加入与参与计算的 Token 数量相关的正则化项，鼓励模型使用更少的计算资源达到相同的效果。
动态批处理: 在实现允许的情况下，将参与计算的 Token 聚集在一起进行矩阵运算，以提高 GPU 利用率。
课程学习: 在训练初期使用较高的容量（如 80% Token 参与），随着训练进行逐渐降低至目标容量（如 30%）。

注意事项:

平衡“稀疏性”与“准确性”。过度的正则化可能导致模型欠拟合。
注意评估指标应基于验证集性能，而非单纯的训练 FLOPs。

实践 5：推理阶段的吞吐量优化

说明: 在推理阶段，MoD 模型的动态计算特性可能导致批处理效率低下（因为不同样本的 Token 计算模式不同）。为了获得最佳的推理吞吐量，需要针对 MoD 的特性进行工程优化。

实施步骤:

Token 合并与重排: 在进入 Transformer 层之前，将 Batch 中所有样本被选中的 Token 挑选出来，打包成一个大矩阵进行统一计算。
掩码处理: 使用高效的掩码技术，确保未被选中的 Token 不占用显存和计算资源，同时保持序列结构的完整性。
KV Cache 优化: 确保未被选中的 Token 依然能够更新其 KV Cache（

学习路径

阶段 1：基础理论铺垫

学习内容:

Transformer架构核心原理: 深入理解Self-Attention机制、Multi-Head Attention以及前馈神经网络（FFN）的计算流程。
计算复杂度分析: 掌握标准Transformer中Attention机制随序列长度变化的计算复杂度（二次方增长）及其带来的显存瓶颈。
稀疏注意力模型: 了解静态稀疏（如Fixed Patterns）与动态稀疏（如Reformer, Routing Transformer）的区别与优缺点。

学习时间: 1-2周

学习资源:

论文: Attention Is All You Need (Vaswani et al., 2017)
博客: Jay Alammar的《The Illustrated Transformer》
课程: 斯坦福大学CS224N自然语言处理深度学习课程

学习建议: 在阅读经典论文时，务必手推Self-Attention的矩阵运算过程，这有助于理解后续MoD如何通过路由机制修改计算图。

阶段 2：核心机制理解

学习内容:

Mixture-of-Depths (MoD) 核心思想: 理解“并非所有Token都需要参与所有计算”的设计哲学，即动态分配计算资源。
路由机制: 学习论文中提出的Top-K路由算法，如何决定哪些Token进入Attention层或MLP层，哪些Token被跳过。
容量控制: 理解如何通过设定容量上限来保证计算量的恒定，以及如何处理残差连接中的权重补偿。

学习时间: 2-3周

学习资源:

论文: Mixture-of-Depths: Dynamically allocating compute in transformer-based language models (Aral et al., 2023)
代码分析: Hugging Face Transformers库中关于MoD的实现细节（如果有）或相关开源复现项目
技术博客: 深入探讨MoD与Mixture-of-Experts (MoE) 区别的技术文章

学习建议: 对比阅读MoD与MoE（Mixture of Experts）论文。MoE是路由到不同的“专家”网络，而MoD是路由决定“是否”计算。重点思考MoD如何保持模型性能的同时显著降低FLOPs。

阶段 3：源码实现与复现

学习内容:

自定义算子实现: 使用PyTorch或JAX编写MoD Attention模块，包括Router的权重计算和Token的Mask操作。
高效训练技巧: 学习如何处理变长批处理以及Mask操作带来的显存碎片问题。
模型微调: 尝试将MoD机制插入到现有的小型预训练模型（如GPT-2或TinyLlama）中，并进行微调实验。

学习时间: 3-4周

学习资源:

GitHub: 搜索 “Mixture of Depths implementation” 或相关开源仓库
文档: PyTorch官方关于torch.scatter和Masking操作的文档
论文附录: MoD原论文的附录部分，通常包含实现细节和超参数设置

学习建议: 在实现时，重点关注梯度的反向传播。由于部分Token被跳过，需要确保残差连接和层归一化在部分计算缺失的情况下依然稳定。

阶段 4：优化、拓展与前沿应用

学习内容:

性能基准测试: 在不同规模参数下（1B, 7B+），对比MoD与Dense Transformer以及MoE的吞吐量、显存占用和收敛速度。
架构变体研究: 探索MoD在其他模态的应用（如Vision Transformers），以及与FlashAttention等底层算子优化的结合。
极限场景优化: 研究在长上下文场景下，MoD如何通过减少无效Token的计算来缓解KV Cache压力。

学习时间: 4周以上

学习资源:

最新ArXiv论文: 关注引用MoD论文的最新研究，如DeepMind关于Transformer效率的后续工作
技术社区: Hugging Face Forums, Reddit (r/MachineLearning)
开源项目: MosaicML或其它LLM训练框架中的高效实现代码

学习建议: 尝试从系统层面进行优化，例如分析MoD带来的非规则内存访问模式对GPU利用率的影响，思考如何通过算子融合进一步提升性能。

常见问题

1: 什么是 Mixture-of-Depths (MoD) 注意力机制？

A: Mixture-of-Depths 是一种动态分配计算资源的 Transformer 架构变体。在传统的 Transformer 模型（如 GPT 或 LLaMA）中，每一个 Token 在每一层都会通过完整的自注意力和前馈网络（FFN）计算，这导致了大量的冗余计算。MoD 机制通过引入一个路由机制，使得模型在每一层中仅选择一部分关键的 Token 进行完整的计算（即“深度”计算），而让其他 Token 跳过计算（即“浅层”传递，直接通过残差连接）。这种方法打破了“所有 Token 在所有层都进行同等计算”的静态模式，实现了计算资源的动态分配。

2: MoD 如何确定哪些 Token 应该被计算？

A: MoD 使用轻量级的路由网络来决定 Token 的命运。具体来说，在每个 Transformer 层中，会有一个基于 Top-K 选择的机制：

模型会根据当前层的状态计算出一个路由分数。
系统会设定一个容量参数，例如只允许该层总 Token 数的 10%-30% 通过计算。
路由器会选择分数最高的 Top-K 个 Token 进入标准的注意力和 FFN 模块，其余未被选中的 Token 则直接通过残差连接传递到下一层。这个过程是可微分的，允许模型在训练过程中学会如何识别哪些 Token 最需要通过该层进行处理。

3: MoD 与 Mixture-of-Experts (MoE) 有什么区别？

A: 虽然两者都涉及“路由”和“稀疏激活”，但优化的维度不同：

Mixture-of-Experts (MoE) 是在模型宽度上的扩展。它将每一层的 FFN 替换为多个专家，每个 Token 被路由到其中的一个或几个专家。MoE 的目的是在保持计算量相对恒定的同时，极大地增加模型参数量。
Mixture-of-Depths (MoD) 是在模型深度上的优化。它关注的是哪些 Token 应该在当前层进行计算。MoD 的目的是在保持模型性能的同时，减少总体的浮点运算次数（FLOPs）。简单来说，MoE 是“选人做不同的任务”，而 MoD 是“选词做深度的思考”。

4: 使用 MoD 技术对模型训练和推理速度有什么实际影响？

A: 根据论文的实验结果，MoD 提供了显著的效率提升：

训练效率：在保持模型性能（如困惑度 Perplexity 或下游任务准确率）相当的情况下，MoD 模型所需的训练计算量可以减少多达 50%。这意味着可以用更少的算力和时间训练出同等水平的模型。
推理速度：由于并非所有 Token 在每一层都进行计算，理论上的推理延迟会降低。然而，实际的加速取决于硬件对动态控制流的优化程度。如果某些层只处理极少数 Token，硬件利用率可能会成为瓶颈，但在批量处理或优化良好的实现中，通常能获得明显的加速。

5: 引入 MoD 机制是否会降低模型的最终性能？

A: 研究表明，不仅不会降低性能，MoD 往往能在同等计算预算下提升性能。当将标准 Transformer 转换为 MoD 架构并保持训练总计算量不变时，MoD 模型通常表现出更好的收敛性和更低的验证损失。这是因为模型学会了将计算资源集中在更难、更具信息量的 Token 上，而不是浪费在简单的填充词或易于处理的上下文上。这种“动态计算预算”的分配方式比静态分配更符合人类处理语言的习惯。

6: MoD 的路由机制是如何训练的？

A: MoD 的路由网络通常作为模型的一部分进行端到端的训练。为了防止路由崩溃（即总是选择相同的 Token 或路径），通常会引入负载均衡损失或辅助损失。这种损失函数会惩罚路由器如果过度集中选择某一部分 Token，或者如果每一层的容量利用率不均衡。通过这种正则化手段，模型被鼓励均匀、有效地利用每一层的计算容量，从而在训练过程中稳定地学会动态路由策略。

7: 在实际部署中，MoD 架构主要适用于什么场景？

A: MoD 架构特别适合以下场景：

大规模语言模型训练：对于训练万亿参数级别的模型，MoD 可以节省数百万美元的算力成本，同时不牺牲模型质量。
边缘设备或移动端推理：由于 MoD 减少了整体的计算量，它非常适合部署在算力受限的设备上，能够有效降低功耗和延迟。
长文本处理：在处理超长上下文时，传统的 Transformer 计算量随序列长度呈平方级增长。结合 MoD 可以通过跳过部分 Token 的计算来缓解长序列带来的计算压力。

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**: 在传统的 Transformer 模型中，计算复杂度通常随序列长度呈二次方增长 ($O(N^2)$)。请解释 Mixture-of-Depths (MoD) 如何通过动态路由机制在保持模型容量的同时降低平均计算成本？它与“跳过”层有何本质区别？

提示**: 关注 MoD 中“Top-k”路由机制的作用。思考它不是简单地跳过层，而是如何选择性地分配计算资源（FLOPs）给输入序列中最相关的部分。对比全量计算和稀疏计算在总浮点运算数上的差异。

引用

ArXiv: http://arxiv.org/abs/2603.15619v1
PDF: https://arxiv.org/pdf/2603.15619v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 论文
标签： MoDA / 注意力机制 / 深度学习 / LLM / 模型架构 / 信号退化 / FlashAttention / 开源
场景：大语言模型

Mixture-of-Depths 动态分配计算资源的注意力机制
MicroGPT：基于微型架构的轻量级大语言模型
MicroGPT：基于微型架构的轻量级大语言模型
LLM 架构画廊：主流大语言模型结构概览
月之暗面发布 Kimi k2.5 技术报告 本文由 AI Stack 自动生成，深度解读学术研究。

Mixture-of-Depths 动态分配计算资源的注意力机制