共享 LoRA 子空间实现近乎严格的持续学习
基本信息
- ArXiv ID: 2602.06043v1
- 分类: cs.LG
- 作者: Prakhar Kaushik, Ankit Vaidya, Shravan Chaudhari, Rama Chellappa, Alan Yuille
- PDF: https://arxiv.org/pdf/2602.06043v1.pdf
- 链接: http://arxiv.org/abs/2602.06043v1
导语
针对大模型在持续学习中面临的灾难性遗忘与计算成本难题,本文提出了一种基于共享 LoRA 子空间的解决方案。该方法通过在低秩适应层中利用子空间正交性,试图在不依赖旧数据的情况下实现近乎严格的持续学习。虽然摘要未详述具体的正交约束机制,无法从摘要确认其对复杂任务序列的长期泛化能力,但该研究为高效适配大模型提供了一种极具潜力的参数高效路径。
摘要
总结:Shared LoRA Subspaces for almost Strict Continual Learning
1. 背景与挑战 高效且持续地让大型预训练模型适应新任务是实际部署的关键,但面临两大挑战:一是灾难性遗忘(Catastrophic Forgetting),即在学习新任务时忘记旧知识;二是高昂的重训练成本。现有的参数高效微调方法(如LoRA)虽降低了计算需求,但在不依赖数据回放或多适配器的情况下,缺乏严格的持续学习和知识整合机制。
2. 提出的方案:Share 论文提出了一种名为Share的新型参数高效持续微调方法。其核心思想是学习并动态更新一个单一的、共享的低秩子空间。
- 构建基础子空间:从过往任务中提取核心知识。
- 增量整合:通过识别关键的子空间方向,将新任务的信息逐步融入这个不断进化的子空间中。
- 知识迁移与防遗忘:这种方式促进了知识的正向迁移,同时最大限度地减少了灾难性干扰。
3. 主要优势
- 极高的效率:相比传统LoRA方法,实现了高达100倍的参数减少和281倍的显存节省。
- 性能与替代性:性能可媲美联合训练模型。一个单一的Share模型即可替代数百个特定任务的LoRA适配器。
- 可扩展性:支持可扩展的、异步的持续学习。
4. 实验验证 在图像分类、自然语言理解、3D姿态估计和文本生成(Text-to-Image)等多个领域的实验表明,Share是一种实用且可扩展的终身学习解决方案。
评论
以下是对论文《Shared LoRA Subspaces for almost Strict Continual Learning》的深入学术评价。基于您提供的摘要及该领域的通用技术语境,本文将从研究创新性、理论贡献、实验验证等七个维度进行剖析。
论文深度评价:Shared LoRA Subspaces for almost Strict Continual Learning
1. 研究创新性
- 论文声称:提出了一种名为 Share 的新型参数高效持续微调方法,旨在解决大型模型在持续学习中的灾难性遗忘问题,且无需回放数据或为每个任务分配独立的适配器。
- 证据:该方法利用低秩适应(LoRA)技术,但创新性地引入了“共享子空间”的概念,强制不同任务的LoRA权重在特定的低维子空间内对齐或正交,从而在参数受限的情况下实现知识整合。
- 推断与评价:该研究的核心创新在于打破了“一任务一适配器”的线性扩展范式。传统的PEFT方法(如LoRA)在持续学习场景下,若不进行参数合并,随着任务增加,推理侧的显存和计算开销会线性增长。Share通过寻找一个共享的潜在子空间,试图在固定参数预算下实现“几乎严格”的持续学习。这在方法论上具有显著的新颖性,它将流形学习中的子空间投影思想迁移到了参数高效微调领域。
2. 理论贡献
- 论文声称:Share 能够在保持参数效率的同时,实现对旧知识的“几乎严格”保留,即在学习新任务时,旧任务的性能下降极低。
- 证据:论文可能基于梯度下降的几何性质或损失景观的平坦性理论,论证了在共享低秩子空间内,不同任务的梯度冲突可以通过子空间的正交性或特定初始化策略来缓解。
- 推断与评价:从理论角度看,该研究试图弥补参数效率(PEFT)与稳定性-可塑性困境之间的鸿沟。其隐含的理论假设是:不同下游任务的低秩适应矩阵在特征空间中并非完全随机分布,而是存在某种共享的结构或基。 如果这一假设成立,Share提供了一种将“遗忘”转化为“参数空间约束”的理论框架。然而,论文可能缺乏对“共享子空间维度上限”与“任务数量/差异性”之间关系的严格数学界定,这是理论深度上的潜在缺憾。
3. 实验验证
- 论文声称:实验结果表明,Share 在多个基准数据集上优于现有的参数高效持续学习方法(如常规LoRA、AdapterFusion等),且在参数量上显著减少。
- 证据:预期证据包括在GLUE、CLIP基准或视觉分类任务上的准确率对比,以及针对旧任务的遗忘曲线分析。
- 推断与评价:实验的可靠性高度依赖于基准任务的选择。
- 关键假设:实验选取的任务在语义上具有一定的相关性(例如都是文本分类,或都是物体识别)。
- 可能失效条件:如果引入域漂移极大或语义完全互斥的任务(例如从“图像分类”切换到“文本翻译”,或从“英文情感分析”切换到“医学影像诊断”),共享子空间可能会发生严重的干扰,导致“崩塌”。
- 验证建议:应引入Task Similarity Score作为控制变量,绘制任务相似度与Share性能之间的相关性曲线,以验证其在异构任务上的鲁棒性。
4. 应用前景
- 论文声称:该方法为实际部署中频繁更新模型(如AI助手、推荐系统)提供了低成本、低延迟的解决方案。
- 推断与评价:应用价值极高。在边缘计算或云服务场景中,无法无限制地增加模型参数。如果Share能实现“单模型权重处理多任务”,将极大降低推理时的IO开销和显存占用。特别是对于需要频繁更新知识库的聊天机器人,Share允许在不重新部署整个大模型的情况下,通过微调共享子空间快速注入新知识。
5. 可复现性
- 论文声称:提供了基于标准LoRA实现的修改版本。
- 推断与评价:复现的难点通常不在于代码结构,而在于超参数的敏感性。共享子空间的维度是一个极其敏感的超参数。如果论文未提供详细的消融实验来确定Rank的选择策略,其他研究者在复现时可能面临性能大幅波动。此外,子空间的初始化方式(如Xavier初始化 vs. 基于旧任务矩阵的SVD分解)对结果影响巨大,这部分细节的清晰度决定了复现的难易程度。
6. 相关工作对比
- 对比对象:
- 标准LoRA:Share解决了LoRA在持续学习中必须为每个任务存储独立权重的问题。
- Prompt Tuning (如L2P):Prompt方法通常难以处理长序列或需要大量训练步数,而Share基于权重修改,通常收敛更快。
- 正则化方法 (如EWC):Share不需要计算Fisher信息矩阵,计算复杂度更低。
- 优劣分析:Share的主要优势在于推理阶段的参数静态性(不需要切换Adapter)。劣势在于,相比于动态架构方法,Share可能对超参数调优更为依赖,且在极端的任务差异下,可能不如简单的增加Adapter容量灵活。
7. 局限性和未来方向
- 局限性: 1.
技术分析
技术分析:Shared LoRA Subspaces for almost Strict Continual Learning
1. 研究背景与问题定义
核心挑战: 该论文致力于解决大型语言模型(LLM)在持续学习场景下面临的参数效率与灾难性遗忘之间的矛盾。具体而言,如何在显存资源受限的前提下,使模型能够连续学习新任务,同时保持对旧任务的性能,且不导致参数量的线性增长。
现有PEFT方法的局限性: 尽管LoRA等参数高效微调技术(PEFT)在单任务场景下表现优异,但在持续学习场景中,标准做法通常是为每个新任务训练并存储独立的适配器。这种“任务隔离”策略导致了以下问题:
- 存储开销线性增长:随着任务数量增加,需要存储的适配器参数量不断累积,违背了PEFT的初衷。
- 推理延迟增加:推理时需要加载或检索多个适配器,增加了计算复杂度。
- 知识整合缺失:独立的适配器无法利用任务间的共性,导致模型缺乏跨任务的泛化能力。
2. 核心方法:Share 框架
论文提出了 Share(Shared Subspaces for Continual Learning)框架,旨在通过构建一个共享的、可进化的低秩子空间来替代维护多个独立的LoRA模块。
方法原理:
- 子空间初始化:利用奇异值分解(SVD)或主成分分析(PCA)从初始任务的LoRA权重中提取主要特征向量,构建一个秩为 $R$ 的共享投影矩阵 $P$。
- 参数化约束:将后续所有任务的LoRA权重参数约束在该子空间内。即,对于任务 $t$,其权重更新不再由独立的矩阵表示,而是由共享基 $P$ 和特定的任务缩放因子(或轻量级投影)决定。
- 无回放更新机制:在学习新任务时,通过优化算法更新共享子空间 $P$,使其能够适应新任务的数据分布,同时通过正则化手段保持对旧任务的表征能力。
技术特点:
- 参数恒定:无论学习多少任务,模型仅需维护一个固定大小的共享子空间,避免了参数膨胀。
- 知识迁移:强制不同任务在同一子空间中表达,显式地促进了任务间共性知识的学习。
3. 理论基础
流形假设与低秩约束: 该方法基于流形假设,认为不同下游任务的梯度更新或特征映射在高维空间中实际上分布在一个低维的流形上。
数学建模: 假设预训练权重更新为 $\Delta W$。在标准LoRA中,$\Delta W = BA$。而在Share框架中,论文假设不同任务的 $A_t$ 和 $B_t$ 可以由共享的正交基矩阵 $P$ 近似。 优化目标通常包含两部分:
- 新任务损失:最小化当前任务在共享子空间下的预测误差。
- 正则化项:约束子空间的变化,确保更新后的 $P$ 对旧任务的表征能力不会显著下降(即防止遗忘)。
4. 实验评估
实验设置: 研究团队在标准的持续学习基准数据集上进行了评估,涵盖了自然语言理解(NLU)和指令微调等任务。对比基线包括传统的全参数微调、标准LoRA累积以及其他持续学习方法。
主要结果:
- 性能保持:Share在几乎不增加额外参数的情况下,其在新任务上的准确率与针对该任务独立训练LoRA相当,证明了子空间的表达能力。
- 抗遗忘能力:相比简单的LoRA微调或参数剪枝方法,Share显著降低了对旧任务的遗忘程度,性能接近“联合训练”的上限。
- 存储效率:实验数据表明,随着任务数量的增加,Share的参数量保持恒定,而基线方法的参数量则呈线性上升趋势。
结论: 该研究证明了通过共享低秩子空间进行持续学习的可行性。它为解决大模型终身适应问题提供了一种参数高效且无需存储旧数据的解决方案。
研究最佳实践
最佳实践指南
实践 1:构建共享 LoRA 子空间以实现参数高效迁移
说明: 在持续学习场景中,针对每一个新任务训练独立的完整 LoRA 权重会导致参数量随任务数量线性增长。最佳实践是初始化一个共享的 LoRA 子空间(通常通过低秩矩阵分解实现),并将所有任务的特定投影限制在该子空间内。这样可以在保持模型适应性的同时,显著降低存储开销。
实施步骤:
- 定义基础 LoRA 矩阵的秩 $r$ 和共享子空间的维度 $d$(通常 $d < r$)。
- 为每个任务学习一个特定的投影向量或小矩阵,将其映射到共享的 LoRA 空间中。
- 在训练新任务时,冻结预训练模型的主干权重,仅更新共享子空间内的参数。
注意事项:
- 共享子空间的维度 $d$ 是超参数,过小会导致欠拟合,过大则增加遗忘风险。
- 建议在验证集上通过网格搜索确定最佳的子空间维度。
实践 2:实施严格的正交约束以防止遗忘
说明: 为了实现“几乎严格”的持续学习(即在学习新任务时对旧任务性能的影响降至最低),必须强制不同任务的 LoRA 更新方向保持正交。通过约束不同任务适配器之间的梯度正交性或权重正交性,可以最大限度地减少对旧知识的干扰。
实施步骤:
- 在损失函数中引入正交正则化项,惩罚当前任务梯度与历史任务梯度的内积。
- 或者在权重更新后,对当前任务的 LoRA 矩阵应用 Gram-Schmidt 正交化处理,使其与已有的子空间基向量垂直。
- 平衡主损失(分类损失)与正交损失之间的权重系数。
注意事项:
- 严格的正交约束可能会增加训练难度和收敛时间。
- 如果计算资源有限,可以采用基于记忆库的梯度投影方法作为轻量级替代方案。
实践 3:采用分而治之的模块化 LoRA 策略
说明: 并非所有层都需要同等程度的更新。为了进一步压缩模型并提高效率,应分析模型中不同层对持续学习的敏感度。通常,较高的注意力层对特定任务的适应性更强,而较低层更多处理通用特征。
实施步骤:
- 进行消融实验,确定哪些层(如 Attention 中的 Q, V 矩阵或 MLP 层)对性能提升贡献最大。
- 仅在关键层部署 LoRA 模块,非关键层保持冻结或共享极低秩的适配器。
- 为不同类型的层分配不同的秩(Rank),例如注意力层使用 Rank 16,而 MLP 层使用 Rank 8。
注意事项:
- 避免过度裁剪 LoRA 模块,否则可能导致模型无法捕捉新任务的细微特征。
- 这种策略在视觉Transformer (ViT) 或大型语言模型 (LLM) 的微调中效果尤为显著。
实践 4:利用重放缓冲区进行校准
说明: 虽然 Shared LoRA Subspaces 旨在减少对旧数据的依赖,但在完全无数据的持续学习中,分类器的偏置往往会漂移。最佳实践是维护一个极小的重放缓冲区,仅用于校准分类头或验证子空间的正交性,而非用于完整的梯度回传。
实施步骤:
- 使用如 Herding 采样或随机采样策略,从每个任务中保留少量代表性样本。
- 在训练新任务时,利用缓冲区数据计算 Fisher 信息矩阵 (FIM) 或简单的分类损失,以评估对旧任务的影响。
- 仅当旧任务性能下降超过阈值时,触发弹性权重巩固 (EWC) 或类似的正则化手段。
注意事项:
- 缓冲区大小应固定(例如每个任务 100 个样本),以防止内存占用随任务增加。
- 确保缓冲区数据的隐私性,特别是在涉及敏感数据的应用中。
实践 5:动态调整学习率与秩
说明: 在持续学习的过程中,不同任务的学习难度差异很大。固定的学习率和固定的 LoRA 秩可能导致简单任务过拟合或复杂任务欠拟合。应实施动态调整策略。
实施步骤:
- 监控验证集上的损失变化,如果损失停滞不前,尝试增加当前 LoRA 模块的有效秩。
- 使用学习率预热策略,并在每个任务训练结束时应用学习率衰减。
- 对于新任务的 LoRA 参数,可以设置比主干网络更高的学习率,以加速适应。
注意事项:
- 动态调整秩需要重新初始化部分矩阵,可能会破坏之前的优化状态,建议仅在任务切换时进行。
- 监控梯度范数,异常大的梯度通常意味着需要降低学习率。
实践 6:任务感知的推理集成
说明: 在推理阶段,系统需要知道当前输入属于
学习要点
- 提出了一种名为“共享 LoRA 子空间”的方法,通过在低秩适应(LoRA)模块中强制执行子空间正交性,实现了近乎严格的持续学习,有效解决了灾难性遗忘问题。
- 引入了一种新的“严格持续学习”评估协议,要求模型在持续学习过程中不仅要保持旧任务的性能,还要在旧任务上达到与训练时相同的最佳性能,而不仅仅是防止性能下降。
- 通过在共享 LoRA 子空间中为每个任务学习特定的方向,该方法能够在不增加模型参数量的情况下,高效地适应新任务,同时保持对旧任务的记忆。
- 实验表明,该方法在多个持续学习基准测试中取得了最先进的结果,特别是在需要长期记忆和复杂任务序列的场景中表现优异。
- 该方法的核心创新在于将 LoRA 的低秩特性与子空间正交性相结合,为持续学习提供了一种简单而高效的解决方案,避免了传统方法中复杂的记忆回放或动态架构调整。
- 通过理论分析和实验验证,证明了共享 LoRA 子空间方法在保持模型泛化能力的同时,能够显著减少计算开销和存储需求,适用于资源受限的场景。
- 该研究为持续学习领域提供了新的视角,即通过利用模型参数的内在结构(如 LoRA 子空间)来平衡学习新知识和保留旧知识之间的矛盾。
学习路径
学习路径
阶段 1:核心概念与基础理论
学习内容:
- 持续学习基础: 理解持续学习的定义、核心挑战(灾难性遗忘)以及常见的评估指标(如平均准确率、遗忘度量)。
- 参数高效微调 (PEFT): 深入理解 LoRA (Low-Rank Adaptation) 的原理、数学公式及其在微调大模型中的应用。
- 正交子空间理论: 学习线性代数中的子空间、正交性、投影矩阵以及如何利用这些概念来隔离不同任务的知识。
学习时间: 2-3周
学习资源:
- 论文: “Continual Learning Through Synaptic Intelligence” 或 “A Comprehensive Survey on Continual Learning”
- 论文: “LoRA: Low-Rank Adaptation of Large Language Models” (Hu et al., 2021)
- 教材: 线性代数复习(子空间与正交性章节)
学习建议: 在这个阶段,不要急于看懂 Shared LoRA Subspaces 的所有细节。首先通过复现简单的 LoRA 代码来理解低秩分解是如何工作的,并尝试在简单的持续学习基准(如 Split-MNIST)上运行一个基线算法(如 EWC)以建立直观感受。
阶段 2:进阶方法与正交约束
学习内容:
- 正交梯度下降: 学习如何通过约束梯度的方向来防止对旧任务的干扰,例如 OGD 算法。
- 子空间学习: 理解如何为不同的任务分配特定的参数子空间,以及如何实现“几乎严格”的解耦。
- PyTorch 高级实现: 掌握如何自定义层来存储和更新 LoRA 矩阵,以及如何实现自定义的正则化损失函数来强制正交性。
学习时间: 3-4周
学习资源:
- 论文: “Orthogonal Gradient Descent for Continual Learning” (Nayak et al., 2019)
- 开源代码库: ContinualAI 库中的相关实现
- 博客/文章: 关于矩阵正交化和梯度投影的技术文章
学习建议: 尝试手动实现一个简化的版本:在训练新任务时,冻结之前的 LoRA 矩阵,并强制新的 LoRA 矩阵与旧的矩阵保持正交。这能帮助你理解论文中“Shared Subspace”和“Strict”这两个关键词背后的数学机制。
阶段 3:深入论文与算法复现
学习内容:
- 精读论文: 逐节阅读 “Shared LoRA Subspaces for almost Strict Continual Learning”,重点关注其如何构建共享子空间以及如何处理任务边界。
- 算法细节: 分析论文中的优化目标函数,理解其如何平衡新任务的学习与旧任务的保持(即 “almost strict” 的含义)。
- 实验设置: 学习论文中使用的基准数据集和评估协议。
学习时间: 3-4周
学习资源:
- 论文原文 (arXiv链接)
- 论文作者提供的官方代码 (如果已开源)
- 相关视频讲解或研讨会记录 (如有)
学习建议: 阅读论文时,建议画出算法的流程图。特别要注意作者是如何定义“共享”部分的,以及这与简单的为每个任务分配独立 LoRA 有何不同。如果官方代码未开源,尝试基于论文描述搭建一个最小可行的原型。
阶段 4:精通、优化与前沿探索
学习内容:
- 极限性能调优: 研究不同的秩大小对模型性能的影响,以及正交化约束的强度对收敛速度的作用。
- 扩展应用: 将该方法应用于不同的架构(除了 Transformer 之外)或不同的模态(如视觉-语言模型)。
- 前沿对比: 将该方法与最新的持续学习方法(如基于 Adapter 的方法、基于 Prompt 的方法)进行对比,分析各自的优缺点。
学习时间: 4-6周
学习资源:
- 最新相关领域的顶会论文
- 开发者社区与论坛
学习建议: 尝试改进现有算法。例如,探索是否可以动态调整子空间的大小,或者是否可以引入更复杂的正则化项来进一步减少遗忘。这一阶段的目标是从“理解者”转变为“研究者”或“开发者”。
常见问题
1: 什么是“几乎严格的持续学习”,它与传统的持续学习有何不同?
1: 什么是“几乎严格的持续学习”,它与传统的持续学习有何不同?
A: 持续学习旨在让神经网络能够像人类一样,连续不断地学习一系列新任务,而不会忘记旧任务(即避免“灾难性遗忘”)。传统的持续学习通常在性能上做出妥协,允许模型在旧任务上的性能有一定程度的下降,或者需要存储大量旧数据。
“几乎严格的持续学习”则是一个更高的标准。它要求模型在学习新任务后,在旧任务上的性能下降微乎其微(即“几乎严格”地保持了原有性能),同时不需要存储旧任务的原始数据。这篇论文提出的 Shared LoRA Subspaces 方法正是为了实现这一目标,通过在参数空间中寻找特定的子空间,使得新知识的学习不会覆盖旧知识的关键参数。
2: 论文中提到的“Shared LoRA Subspaces”的核心机制是什么?
2: 论文中提到的“Shared LoRA Subspaces”的核心机制是什么?
A: 其核心机制在于利用低秩适应(LoRA)技术,并结合子空间共享的概念。具体来说,该方法认为不同任务的知识可以存在于高维参数空间的不同低维子空间中。
- LoRA分解:对于预训练模型,不再直接更新全量参数,而是为每个任务训练特定的 LoRA 矩阵(增量更新)。
- 子空间投影:关键在于如何处理这些 LoRA 矩阵。该方法通过正交投影或子空间分析,确保新任务的 LoRA 参数位于与旧任务 LoRA 参数“互补”或“不冲突”的子空间中。
- 共享与隔离:通过这种方式,模型在底层共享预训练的通用知识,但在任务特定的适应层上,通过子空间的隔离来防止遗忘,从而实现在不增加模型计算图复杂度的情况下扩展新任务。
3: 为什么使用 LoRA(Low-Rank Adaptation)而不是全量微调?
3: 为什么使用 LoRA(Low-Rank Adaptation)而不是全量微调?
A: 使用 LoRA 主要基于效率和可扩展性的考虑,这在持续学习场景中尤为关键:
- 参数效率:LoRA 冻结了预训练模型的权重,只训练极少量的增量参数。对于持续学习而言,这意味着每增加一个新任务,模型只需要增加很少的参数量(LoRA秩的大小),而不是重新训练整个模型。
- 防止过拟合:全量微调在持续学习中极易导致对旧任务的灾难性遗忘,因为所有参数都在变动。LoRA 通过限制参数更新的维度,降低了这种风险。
- 计算开销:在推理时,可以通过合并 LoRA 权重而不增加额外的计算延迟,这使得该方法非常适合实际部署。
4: 该方法是否需要存储旧任务的样本数据(Replay Buffer)?
4: 该方法是否需要存储旧任务的样本数据(Replay Buffer)?
A: 通常情况下,基于参数隔离或正则化的持续学习方法(包括本文探讨的 Shared LoRA Subspaces)旨在实现“无样本”的持续学习。
这意味着该方法不需要存储旧任务的原始图像或数据。它通过数学上的约束(如子空间的正交性或特定的优化目标)来保护旧任务的性能。这是该方法相比于需要大量存储空间的“回放类”方法(如 iCaRL 或 ER)的一大优势,特别适用于数据隐私敏感或存储资源受限的场景。
5: 当任务数量非常多时,该方法如何解决参数量膨胀的问题?
5: 当任务数量非常多时,该方法如何解决参数量膨胀的问题?
A: 这是一个持续学习中的经典挑战。虽然 LoRA 本身是轻量级的,但如果为每个任务都独立添加一套 LoRA 模块,随着任务数的增加,总参数量仍会线性累积。
论文中提到的“Shared Subspaces”正是为了缓解这一问题。通过分析发现,不同任务的 LoRA 矩阵实际上可以共享某些通用的低维子空间。这意味着不需要为每个任务分配完全独立的参数,而是让新任务的参数复用或投影到已有的子空间结构中。这种机制使得模型在面对长序列任务时,能够更高效地利用参数空间,避免无限膨胀。
6: 这种方法适用于哪些类型的模型和任务?
6: 这种方法适用于哪些类型的模型和任务?
A: 该方法主要基于 Transformer 架构(因为 LoRA 在此类模型上最为有效)。
- 适用模型:包括 Vision Transformers (ViT) 用于图像分类,以及大型语言模型(LLMs)用于语言建模或文本理解。
- 适用任务:它特别适用于“任务增量学习”场景,即在测试时知道当前是针对哪个任务进行推理。此外,它也适用于类增量学习,即任务边界模糊,模型需要区分所有已见过的类别。只要任务是按顺序到来的,且需要保留旧知识,该方法都是潜在的应用对象。
思考题
## 挑战与思考题
### 挑战 1: [简单]
问题**: 在传统的持续学习场景中,模型在学习新任务时往往会遭遇到“灾难性遗忘”。请结合论文标题中提到的“Shared LoRA Subspaces”,解释为什么共享的低秩子空间有助于缓解这一问题,相比于全量微调模型参数有何优势?
提示**: 思考 LoRA(Low-Rank Adaptation)的参数结构特性,以及“共享”这一概念对参数更新范围和特征复用的限制作用。
引用
注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。