多头低秩注意力机制
基本信息
- ArXiv ID: 2603.02188v1
- 分类: cs.LG
- 作者: Songtao Liu, Hongwu Peng, Zhiwei Zhang, Zhengyu Chen, Yue Guo
- PDF: https://arxiv.org/pdf/2603.02188v1.pdf
- 链接: http://arxiv.org/abs/2603.02188v1
导语
大语言模型在长上下文推理中面临 Key-Value (KV) 缓存从高带宽内存(HBM)搬运至片上内存的带宽瓶颈。本文提出 Multi-Head Low-Rank Attention,旨在通过低秩近似等技术进一步压缩 KV 缓存并优化数据搬运效率。虽然摘要显示该方法显著降低了 KV 总量,但具体的压缩率数值及对模型精度的实际影响无法从摘要确认。该研究若能有效平衡推理速度与性能,有望为解决长序列场景下的显存与计算开销问题提供新思路。
摘要
以下是该内容的中文总结:
背景与问题: 大语言模型的长上下文推理在解码阶段受限于键值(KV)缓存加载的瓶颈。由于生成的序列特性,每一步都需要将 KV 缓存从片外高带宽内存(HBM)传输到片内静态随机存取内存(SRAM)。
尽管多头潜在注意力(MLA)显著减少了 KV 缓存的总大小,但在使用张量并行(TP)进行分布式解码时存在分片瓶颈。因为 MLA 的单个潜在头无法被分区,导致每个设备在处理每个 Token 时都必须冗余地加载完整的 KV 缓存。这消耗了过多的内存流量,从而抵消了权重分片等 TP 带来的优势。
提出的方案: 本文提出了多头低秩注意力。
核心贡献与优势: MLRA 支持可分区的潜在状态,从而实现了高效的 4 路 TP 解码。
实验结果: 广泛的实验表明,MLRA 不仅达到了最先进的困惑度和下游任务性能,还实现了比 MLA 快 2.8 倍的解码速度。
评论
基于您提供的论文标题《Multi-Head Low-Rank Attention》及摘要片段,结合当前大语言模型(LLM)推理优化领域的背景,以下是对该论文的深入学术评价。由于摘要内容在“提出的方案”处截断,下文评价将基于标题“多头低秩注意力”及其解决“张量并行(TP)下KV缓存传输瓶颈”这一核心逻辑进行推断与分析。
1. 研究创新性
- 论文声称: 现有的**多头潜在注意力(MLA)虽然通过低秩分解压缩了KV缓存,但在张量并行(TP)**场景下存在致命缺陷。MLA通常将Key/Value压缩为一个单一的潜在向量,导致在TP分布式推理时,无法对这一潜在向量进行切分。为了计算注意力,每个GPU节点都必须冗余地加载完整的KV缓存,导致内存带宽(HBM-to-SRAM)成为瓶颈。
- 证据与推断: 论文提出Multi-Head Low-Rank Attention,推测其核心创新在于**“多头化”**低秩分解结构。不同于MLA将所有头的KV压缩为一个共享的潜在向量,该方法可能保留了多个独立的低秩头或对压缩矩阵进行了特定的分块设计。
- 评价: 该创新点切中了当前超长上下文模型推理的痛点。学术界目前的主流关注点在于如何通过量化(如GPTQ、AWQ)或稀疏化来减少显存占用,但对于推理阶段的内存带宽墙关注相对较少。该工作从系统架构(TP通信与显存带宽)的角度反推模型结构设计,提出了“结构服务于系统”的创新思路,具有很高的工程价值和学术敏锐度。
2. 理论贡献
- 理论补充: 传统注意力机制理论认为,低秩分解(如MLA)仅是参数压缩的一种手段,不改变模型的表达能力。本文的理论贡献在于揭示了**“压缩表示的拓扑结构与并行策略之间的互斥性”**。
- 关键假设与验证:
- 假设: KV缓存可以在保持模型性能的前提下,被分解为多个可并行的、独立的低秩分量,且这些分量的计算可以被充分流水线化,从而掩盖通信延迟。
- 推断: 如果该方法成立,它意味着低秩近似并非必须全局共享,局部低秩同样有效。这为未来的模型设计提供了新的理论自由度:在不牺牲推理吞吐量的前提下实现极致的KV压缩。
3. 实验验证
- 实验设计: 评价此类论文的关键在于实验是否覆盖了**“计算受限”与“内存受限”**两种边界情况。
- 可靠性分析:
- 必须具备的指标: 端到端推理延迟、Time-to-First-Token (TTFT) 和 Time-per-Output-Token (TPOT)。
- 关键推断: 如果论文仅展示了显存占用(Memory Footprint)的下降,而未展示TPOT的显著提升,则其核心价值未被充分验证。因为其声称解决的是“KV缓存加载”瓶颈,这直接影响解码速度。
- 失效条件检验: 需要验证在**极小Batch Size(Batch=1)和极大Context Window(如128k+)**下的表现。在小Batch下,计算开销小,带宽瓶颈最明显,此时该方法应展现出相比MLA最大的优势;若在Batch Size很大时优势消失,说明方法引入了额外的计算Overhead。
4. 应用前景
- 实际价值:
该技术具有极高的落地潜力,特别是对于长文本对话系统和Agent应用。
- 长上下文场景: 在处理RAG(检索增强生成)或长篇小说分析时,Context Length往往达到100k+,KV缓存极大。TP是目前训练和推理大模型的标配,解决TP下的KV冗余加载问题,直接意味着在同样的硬件成本下可以支持更大的并发量。
- 推理成本优化: 对于云服务提供商,该方法能显著降低HBM带宽压力,从而降低服务成本。
5. 可复现性与方法清晰度
- 评价:
从标题和摘要来看,方法涉及到底层算子的修改。
- 潜在难点: 仅仅发布模型权重是不够的。要复现其性能优势,必须配合高度优化的CUDA Kernel。如果论文仅提供了PyTorch原生实现,其性能提升可能无法体现。
- 关键点: 评价其可复现性需检查是否开源了推理框架代码(如基于vLLM或TensorRT-LLM的修改版)。若仅提供算法描述而无底层实现参考,复现难度极大。
6. 相关工作对比
- 对比 MLA (DeepSeek-V2/V3):
- MLA优势: 极致的KV缓存压缩率,显存占用最低。
- MLA劣势: 在TP推理时,由于Key-Value是共享的潜在向量,导致All-Gather通信量巨大或HBM读取冗余。
- 本文优势: 牺牲了一定的KV压缩率(推测),换取了TP下的并行效率,避免了全局KV的冗余加载。
- 对比 GQA (Grouped Query Attention) / MQA:
- GQA/MQA: 通过减少Head数量来降低KV缓存,但不涉及低秩分解,压缩率不如MLA和本文
技术分析
技术分析
1. 研究背景与问题
核心问题: 本研究旨在解决大语言模型(LLM)在长上下文推理阶段,键值缓存(KV Cache)与张量并行(TP)架构之间的兼容性问题。具体而言,现有的高效注意力机制(如MLA)虽然压缩了显存占用,但其结构设计导致在分布式推理时无法有效利用TP的并行计算能力,从而引发内存带宽瓶颈。
背景与挑战: 随着模型参数量和上下文长度的增加,推理过程逐渐从计算受限转变为内存受限。KV Cache技术虽然通过缓存历史Token的Key和Value向量避免了重复计算,但其显存占用随上下文长度线性增长。 DeepSeek提出的**多头潜在注意力(MLA)**通过低秩分解大幅压缩了KV Cache。然而,MLA通常采用单一或极少量的潜在注意力头。在张量并行策略中,由于潜在头无法被切分到不同GPU,每个节点在处理每个Token时都需要从HBM中加载完整的KV Cache数据。这种冗余的数据传输抵消了TP带来的计算优势,限制了模型在多卡环境下的扩展性。
2. 核心方法与创新
核心方法:多头低秩注意力(MLRA) MLRA是对MLA架构的重构,旨在解决潜在状态不可切分的问题。其核心思想是将单一的潜在头结构扩展为多头潜在结构,使其适配张量并行的分片需求。
技术创新点:
- 可分区的潜在状态: MLRA设计了多个独立的潜在头,替代了MLA中的单一潜在向量。这使得KV Cache在逻辑上被划分为多个子块,每个子块可以独立分配给不同的GPU进行处理。
- 解耦投影矩阵: 重新设计了Key和Value的投影方式,在保持低秩特性的同时,允许投影矩阵沿头维度进行切分,从而支持TP策略。
- 维持模型容量: 通过调整参数配置,MLRA在改变结构以支持并行的同时,保持了模型的表达能力,确保了对复杂模式的捕捉能力。
技术优势:
- 兼容TP架构: 解决了MLA在TP模式下的通信瓶颈,消除了冗余的内存访问。
- 推理加速: 实验表明,在TP环境下,MLRA的解码速度相比MLA有显著提升(数据显示可达2.8倍)。
- 通用性: 可作为标准注意力层的替代方案,集成到现有的Transformer架构中。
3. 理论基础
数学模型与算法设计: MLRA在数学形式上结合了标准注意力机制与低秩分解的特性。
- 低秩分解视角: 传统的MLA将KV Cache压缩为单一潜在向量 $C_{KV}$,即 $K_{cache} \approx W_{DK} \cdot C_{KV}$。MLRA将此扩展为多头形式,将压缩算子 $W_{DK}$ 转化为支持分块对角或独立集合的矩阵结构,对应 $H_{latent}$ 个潜在头。
- 并行计算逻辑: 注意力计算 $Attention(Q, K, V)$ 在MLRA中被设计为在压缩后的潜在空间进行。由于潜在空间被划分为多个头,$Q$ 与 $K/V$ 的交互计算可以独立地在不同的GPU节点上完成,随后再进行结果归约。
理论分析:
- 复杂度对比: 传统MHA的KV Cache空间复杂度为 $O(2 \cdot L \cdot d_{model} \cdot H)$,MLA将其降至 $O(L \cdot d_{latent})$。MLRA在维持相近显存占用($O(L \cdot d_{latent} \cdot H_{new})$)的同时,改变了数据访问模式。
- I/O效率: 在TP环境下,MLRA将原本集中的内存读取操作分散化。根据Amdahl定律或通信复杂性分析,减少节点间的数据依赖和同步开销直接提升了系统的并行效率和吞吐量。
研究最佳实践
最佳实践指南
实践 1:动态调整秩以平衡效率与性能
说明: Multi-Head Low-Rank Attention (MHLRA) 的核心在于将注意力矩阵分解为低秩形式。不同的数据集和任务对秩的敏感度不同。过低的秩会导致信息丢失,过高的秩则失去了低秩分解在计算和内存上的优势。
实施步骤:
- 在验证集上进行超参数搜索,秩的搜索范围建议设置在 8 到 64 之间(假设原始维度较大)。
- 实施一种“热身”策略,在训练初期使用较高的秩以保证收敛,随后在训练后期逐渐降低秩或固定在最优值。
- 监控 Loss 曲线,如果 Loss 震荡较大,通常意味着秩过低,导致模型无法捕捉关键特征。
注意事项: 不要在所有层使用相同的秩。通常浅层网络需要捕捉更多细节,可以设置较高的秩;深层网络更多处理语义信息,可以使用较低的秩。
实践 2:优化低秩投影矩阵的初始化
说明: 低秩分解引入了额外的投影矩阵(如 $P$ 和 $Q$)。如果使用随机初始化(如 Xavier 或 Kaiming),可能会导致训练初期的梯度不稳定,因为模型需要从随机状态学习如何压缩和还原信息。
实施步骤:
- 采用奇异值分解(SVD)或截断 SVD 对预训练的标准注意力权重进行初始化。
- 如果是从头开始训练,建议先将低秩分支的权重初始化为接近恒等映射的形式,或者使用较小的学习率进行预热。
- 确保投影矩阵的初始化方差与原始注意力权重的方差保持一致。
注意事项: 避免使用全零初始化,这会导致梯度消失。
实践 3:利用分组或共享低秩投影
说明: 在 Multi-Head 设置中,如果每个头都维护独立的低秩投影矩阵,参数量会显著增加。为了保持参数效率,可以在头之间共享低秩投影,或者对头进行分组。
实施步骤:
- 评估模型参数预算,如果参数量受限,将所有注意力头的低秩投影矩阵设为共享参数。
- 如果不希望完全共享,可以将头分为若干组,组内共享投影矩阵。
- 修改前向传播代码,确保张量形状在投影操作前正确 reshape 以适应分组或共享逻辑。
注意事项: 共享投影可能会降低模型捕捉多样化特征的能力,建议在任务较为简单或数据量较少时使用。
实践 4:融合 Kernel 以提升推理速度
说明: 理论上的 FLOPs 降低并不总是直接转化为推理速度的提升,因为低秩分解增加了操作的顺序(如先乘 $P$ 再乘 $Q$)。内存访问开销可能成为瓶颈。
实施步骤:
- 在推理阶段,将低秩投影矩阵与相邻的线性层(如 Q, K, V 投影层或输出投影层)进行融合,合并为一个单一的矩阵乘法。
- 使用深度学习框架的算子融合 API(如 PyTorch 的
torch.jit.script或 TensorRT)优化计算图。 - 基准测试融合前后的实际推理时间,而不仅仅是 FLOPs。
注意事项: 融合操作会增加显存占用,需确保硬件显存足够。
实践 5:针对长序列优化的分块注意力
说明: MHLRA 特别适合处理长序列,因为低秩近似可以显著降低 $N^2$ 的注意力图计算复杂度。为了进一步优化,应结合分块或局部注意力机制。
实施步骤:
- 将输入序列划分为固定大小的块。
- 在块内部应用标准的低秩注意力机制。
- 引入少量的全局 Token,用于在不同块之间传递信息,确保长距离依赖不被丢失。
注意事项: 块的大小需要根据硬件的 SRAM 大小进行调整,以最大化内存带宽利用率。
实践 6:正则化与稳定性控制
说明: 低秩分解容易导致训练过程中的数值不稳定,特别是在使用混合精度训练时。此外,过拟合也是小模型常见的问题。
实施步骤:
- 在低秩投影矩阵上引入 DropPath 或 Dropout,防止过拟合。
- 对低秩矩阵的输出进行 Layer Normalization 或 RMS Normalization,稳定数值分布。
- 可选地添加正则化项,约束投影矩阵的正交性,以保持信息流的无损性。
注意事项: 在使用 FP16 或 BF16 训练时,务必关注梯度裁剪,防止低秩分支的梯度爆炸。
学习要点
- 基于对 Multi-Head Low-Rank Attention(多头低秩注意力,通常关联于如 MEGA、Low-Rank Attention 等优化 Transformer 架构的研究)的总结,以下是关键要点:
- 多头低秩注意力通过将注意力矩阵分解为低秩形式,显著降低了标准注意力机制在长序列处理中的计算复杂度。
- 该架构利用参数化的记忆矩阵或全局上下文向量,增强了模型捕获长距离依赖关系的能力,解决了标准 Transformer 在超长序列上的遗忘问题。
- 通过引入指数移动平均(EMA)或其他连续时间动态机制,该方法在保持线性时间复杂度的同时,实现了比传统注意力更优的建模效率。
- 这种设计允许模型在推理过程中采用缓存机制,从而在生成任务中大幅降低显存占用并提高推理速度。
- 实验表明,在保持参数量相当的情况下,低秩注意力机制在长文本建模任务中通常优于标准的 Transformer 基线。
- 该方法通过解耦多头注意力中的“键-值”交互与“查询-键”交互,提供了比标准多头注意力更灵活的特征表示空间。
学习路径
学习路径
阶段 1:数学基础与注意力机制原理
学习内容:
- 线性代数基础:矩阵乘法、秩、低秩矩阵分解
- 概率论基础:Softmax 函数及其性质
- 深度学习基础:前向传播、反向传播、梯度下降
- 注意力机制起源:Seq2Seq 模型、Bahdanau Attention
- Transformer 架构详解:Self-Attention、Multi-Head Attention、Positional Encoding
学习时间: 2-3周
学习资源:
- 《深度学习》(Goodfellow) 第2、3章
- “Attention Is All You Need” 原始论文
- Andrej Karpathy 的 “Let’s build GPT: from scratch, in code, spelled out” 视频
- Jay Alammar 的博客 “The Illustrated Transformer”
学习建议:
- 重点理解矩阵运算在注意力机制中的作用
- 手动实现一个基础的 Self-Attention 模块
- 熟悉 Transformer 的整体架构和数据流动
阶段 2:高效注意力机制变体
学习内容:
- 标准 Attention 的计算复杂度分析($O(N^2)$ 问题)
- 稀疏注意力机制:Sparse Attention、Local Attention
- 线性注意力机制:Linear Attention、Performer
- 低秩近似方法:SVD 分解、Nystrom 方法
- 内存与计算优化的权衡分析
学习时间: 3-4周
学习资源:
- 论文 “Rethinking Attention with Performers”
- 论文 “Linformer: Self-Attention with Linear Complexity”
- 论文 “Nyströmformer: A Nyström-Based Algorithm for Approximating Self-Attention”
- Hugging Face Transformers 文档关于 Efficient Attention 的部分
学习建议:
- 对比不同变体在长序列处理上的优缺点
- 尝试复现一种线性注意力机制的简化版本
- 关注不同方法如何降低空间和时间复杂度
阶段 3:Multi-Head Low-Rank Attention (MHLRA) 核心原理
学习内容:
- Low-Rank Attention 的数学推导:如何将 $QK^T$ 分解为低秩形式
- Multi-Head 机制与低秩分解的结合方式
- MHLRA 的具体架构设计:投影矩阵、键值压缩
- 与标准 Multi-Head Attention (MHA) 和 Multi-Query Attention (MQA) 的对比
- 收敛性与稳定性分析
学习时间: 2-3周
学习资源:
- 目标论文 “Multi-Head Low-Rank Attention” (arxiv)
- 相关代码库(如果论文提供)
- “Efficient Transformers: A Survey” 综述文章
- 数学工具:矩阵微积分基础
学习建议:
- 仔细推导论文中的核心公式,理解低秩约束如何引入
- 绘制 MHLRA 的计算流程图,对比 MHA
- 分析低秩近似对模型表达能力的影响
阶段 4:代码实现与算法复现
学习内容:
- 基于 PyTorch/TensorFlow 实现 MHLRA 模块
- 实现自定义的反向传播(如果涉及特殊算子)
- 单元测试:对比 MHLRA 与标准 Attention 的输出形状和数值
- 性能剖析:测量显存占用、推理速度和训练吞吐量
- 融入现有架构:将 MHLRA 替换 ViT 或 BERT 中的 Attention 层
学习时间: 3-4周
学习资源:
- PyTorch 官方文档关于
torch.nn.MultiheadAttention的源码 - Timm 库 (PyTorch Image Models) 代码结构
- CUDA 编程基础(若需底层优化)
- 论文作者发布的官方代码库
学习建议:
- 先实现一个小规模的版本(如 head_dim=8, rank=4)进行验证
- 使用 Checkpoint 技术进一步优化显存
- 在合成数据上测试模型是否能正常降维和还原
阶段 5:应用实战与前沿探索
学习内容:
- 在下游任务中微调 MHLRA 模型(图像分类或语言模型)
- 超参数调优:秩的选择、Head 数量与 Rank 的比例关系
- 处理长序列任务:验证 MHLRA 在长文本或高分辨率图像上的优势
- 探索最新的混合架构(如 MHLRA + Flash Attention)
- 阅读最新的相关会议论文(NeurIPS, ICLR, ICML)
学习时间: 持续进行
学习资源:
- Hugging Face Hub 上的预训练模型
- Long Range Arena 基准测试
- Papers with Code 网站追踪最新 SOTA
- 相关领域的 GitHub 开源项目
学习建议:
- 记录实验日志,分析 Rank 大小对模型性能的具体影响
常见问题
1: 什么是多头低秩注意力,它与标准多头注意力机制有何不同?
1: 什么是多头低秩注意力,它与标准多头注意力机制有何不同?
A: 多头低秩注意力是一种旨在降低 Transformer 模型计算复杂度和显存占用的优化技术。在标准的 Transformer 架构中,注意力机制的计算复杂度通常与序列长度的平方成正比(即 $O(N^2)$),这限制了模型处理长序列的能力。
Multi-Head Low-Rank Attention 通过引入低秩假设来解决这个问题。它通常利用矩阵分解技术(如将 Key 和 Value 矩阵分解为两个较小的矩阵乘积)或者利用低秩近似属性,使得注意力计算不再需要存储完整的 $N \times N$ 注意力矩阵。这种方法在保持模型表达能力(即多头结构捕捉不同特征的能力)的同时,显著降低了计算开销,使得模型能够更高效地处理长上下文信息。
2: 使用 Multi-Head Low-Rank Attention 的主要优势是什么?
2: 使用 Multi-Head Low-Rank Attention 的主要优势是什么?
A: 主要优势可以归纳为以下三点:
- 计算效率高:通过降低矩阵的秩,该方法将注意力机制的计算复杂度从二次方降低到线性或近似线性,极大地加快了推理和训练速度,特别是在处理长文本时。
- 显存占用低:标准注意力机制需要缓存巨大的注意力分数矩阵,这在长序列下极易导致显存溢出(OOM)。低秩方法避免了显式构造这个大矩阵,从而大幅降低了显存消耗。
- 保持性能:尽管进行了降维处理,但由于保留了多头结构,模型依然能够从不同的表示子空间捕捉信息,实验表明其在保持与标准 Transformer 相当性能的同时,提升了效率。
3: 这种方法是否会牺牲模型的准确性或表达能力?
3: 这种方法是否会牺牲模型的准确性或表达能力?
A: 这是一个在模型压缩领域常见的问题。理论上,任何低秩近似都会带来一定程度的信息损失。然而,根据 arXiv 上相关论文的实验结果,Multi-Head Low-Rank Attention 在大多数自然语言处理(NLP)和计算机视觉(CV)任务上,能够保持与标准 Transformer 相当的准确率。
原因在于:
- 冗余性:研究表明,注意力矩阵通常具有低秩特性,即存在大量冗余信息,去除这些冗余对最终结果影响较小。
- 多头补偿:多头机制本身提供了冗余和多样性,即使单个头的秩降低,多个头的组合依然能保留足够的表达能力。
- 端到端学习:模型会通过训练自动学习如何适应这种低秩约束,从而最小化性能损失。
4: 在实际应用中,如何实现 Key 和 Value 的低秩分解?
4: 在实际应用中,如何实现 Key 和 Value 的低秩分解?
A: 实现低秩分解通常有两种主流策略:
- 显式矩阵分解:直接将原本的 Key ($W_K$) 和 Value ($W_V$) 投影矩阵分解为两个较小的矩阵。例如,$W_K$ 被分解为 $W_{K1} \times W_{K2}$,其中 $W_{K1}$ 将输入投影到低维空间,$W_{K2}$ 将其映射回原始空间。这样在计算注意力分数时,是在低维空间进行点积运算,从而减少计算量。
- 利用核函数:某些变体不显式分解矩阵,而是利用核技巧(如 Performer 使用的随机特征方法)来近似 softmax 注意力力,通过这种数学技巧在低维空间中隐式计算注意力结果。
5: Multi-Head Low-Rank Attention 适用于哪些场景?
5: Multi-Head Low-Rank Attention 适用于哪些场景?
A: 该技术特别适用于以下场景:
- 长文档处理:当输入序列长度(如长篇小说、技术文档或法律合同)超过常规模型(如 BERT 或 GPT-3)的最大上下文窗口时,低秩注意力机制使得处理这些长序列成为可能。
- 资源受限环境:在边缘计算设备(如手机、嵌入式设备)上部署大模型时,显存和算力受限,低秩机制能显著降低资源需求。
- 实时推理系统:对于需要低延迟响应的应用(如实时机器翻译或对话系统),计算量的减少直接转化为更快的生成速度。
6: 这种方法与稀疏注意力机制有何区别?
6: 这种方法与稀疏注意力机制有何区别?
A: 两者的目的都是为了解决 $O(N^2)$ 的复杂度问题,但手段不同:
- 稀疏注意力:通过限制每个 Token 只关注局部邻域或特定的全局 Token(如 Reformer, BigBird),从而“稀疏化”注意力矩阵。这种方法虽然减少了计算量,但通常需要特殊的硬件优化才能充分发挥速度优势,且实现较为复杂。
- 低秩注意力:不强制稀疏化,而是通过数学上的低维投影来近似全注意力。它通常不需要特殊的稀疏算子支持,在标准硬件上更容易实现和优化,且在某些情况下对全局信息的捕捉比局部稀疏注意力更好。
思考题
## 挑战与思考题
### 挑战 1: [简单]
问题**: 在标准的 Multi-Head Attention (MHA) 机制中,参数量主要来自 Query、Key、Value 的投影矩阵。假设模型隐藏层维度为 $d_{model}$,头数为 $h$,请推导标准 MHA 与 Low-Rank Attention (例如通过引入低秩分解矩阵 $A$ 和 $B$) 之间的参数量差异表达式。如果 $d_{model}=4096, h=32$,低秩分解秩 $r=64$,计算实际节省了多少参数。
提示**: 关注标准 MHA 中 $W_Q, W_K, W_V$ 的维度形状,对比 Low-Rank 分解中 $A \in \mathbb{R}^{d \times r}$ 和 $B \in \mathbb{R}^{r \times d}$ 的乘积维度。注意不要忽略 Bias(偏置项)的影响。
引用
注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。