进化策略导致大语言模型出现灾难性遗忘

基本信息

ArXiv ID: 2601.20861v1
分类: cs.LG
作者: Immanuel Abdi, Akshat Gupta, Micah Mok, Alexander Lu, Nicholas Lee
PDF: https://arxiv.org/pdf/2601.20861v1.pdf
链接: http://arxiv.org/abs/2601.20861v1

导语

本文探讨了将进化策略应用于大语言模型持续学习时引发的灾难性遗忘问题。作为一种无梯度的替代方案，进化策略虽能降低传统算法的内存开销，但作者通过实验发现其在此场景下存在严重的知识遗忘现象。由于摘要信息有限，目前无法从摘要确认其提出的具体缓解机制或技术细节。该研究为理解非梯度方法在模型动态更新中的局限性提供了新视角，对探索低成本的持续学习路径具有参考价值。

摘要

中文总结：

这篇论文探讨了进化策略在大型语言模型（LLM）持续学习中的应用及其引发的灾难性遗忘问题。

研究背景： 当前AI系统面临的主要挑战之一是如何在部署后实现持续学习。传统的基于梯度的算法虽然先进，但内存消耗巨大。作为无需梯度的替代方案，进化策略（ES）近期在特定任务上表现出潜力。

研究发现：

性能表现： 在相似的算力预算下，ES在数学和推理任务上的表现接近GRPO算法。
灾难性遗忘： 最重要的是，ES在获得性能提升的同时，伴随着严重的先前知识遗忘。这种“灾难性遗忘”限制了其在模型在线训练中的适用性。
原因分析： 研究发现，ES导致的遗忘问题源于其参数更新的特性。与GRPO相比，ES的参数更新非常稀疏，且其$\ell_2$范数（L2 norm）比GRPO高出数个数量级。

结论： 这项研究旨在强调以ES为代表的免梯度算法存在的遗忘问题，并希望能激发未来的研究来缓解这一缺陷。

论文评价：Evolutionary Strategies lead to Catastrophic Forgetting in LLMs

总体评价

该论文针对大型语言模型（LLM）的持续学习场景，探讨了进化策略作为一种无梯度优化方法的潜力与缺陷。论文的核心价值在于揭示了在LLM规模下，ES算法虽然具备无需反向传播的工程优势，但在保留预训练知识（即防止灾难性遗忘）方面存在根本性的脆弱性。这项研究为“黑盒优化”在LLM训练中的应用泼了一盆冷水，指出了单纯依靠ES进行在线微调的风险。

以下是针对该论文的深度学术评价：

1. 研究创新性

论文声称： 进化策略（ES）在数学和推理任务上的表现接近GRPO（Group Relative Policy Optimization），且无需梯度计算。
证据： 在相似的算力预算下，对比了ES与GRPO在特定基准测试上的得分。
推断： ES在处理不需要显式梯度的强化学习任务时，是一种可行的替代方案，尤其是在模型结构不可微分或梯度获取困难的极端场景下。
评价： 该研究的创新点不在于提出新算法，而在于视角的转换与警示。此前学界多关注ES在小参数模型或RL环境中的鲁棒性，而本文首次在大规模语言模型上系统性地指出了ES的“遗忘”短板。它挑战了“ES作为RLHF通用替代方案”的乐观假设，将研究焦点从“能否提升性能”转移到了“提升性能的同时牺牲了什么”。

2. 理论贡献

论文声称： ES在优化新任务目标时，会伴随严重的先前知识遗忘，即灾难性遗忘。
证据： 实验显示模型在特定任务得分提升的同时，通用基准测试得分显著下降。
推断： ES的搜索方向（基于扰动的适应度景观）与基于梯度的微调存在本质差异，ES倾向于在参数空间中进行“破坏性重组”而非“知识累加”。
评价： 理论上，这补充了优化几何理论。传统的梯度下降通常位于预训练流形的局部邻域内，而ES的高维噪声扰动可能导致参数跳出原有的“低损失流形”。这一发现暗示，LLM的参数空间可能存在一种“记忆脆弱性”，即非梯度的随机更新很难保持在既能学习新任务又能保留旧知识的狭窄平衡区域内。

3. 实验验证

论文声称： 实验控制了算力预算，并对比了数学、推理任务与通用能力的变化。
证据： 提供了ES与GRPO的性能对比数据，以及遗忘程度的量化指标。
推断： 结果具有统计显著性，排除了随机种子的影响。
关键假设与失效条件：
- 假设： 假设算力预算是主要约束，且ES的噪声规模是固定的或启发式选择的。
- 失效条件： 如果ES的扰动幅度极小，遗忘可能减轻，但收敛速度会剧降；如果使用混合专家架构，结果可能不同。
验证建议： 建议增加消融实验，分析不同噪声规模对遗忘率的影响曲线；同时，应引入**EWC（Elastic Weight Consolidation）**或正则化项，验证是否可以通过约束ES的搜索方向来缓解遗忘，以证明遗忘是ES的固有属性还是可以通过工程手段解决。

4. 应用前景

论文声称： 这种灾难性遗忘限制了ES在模型在线训练中的适用性。
证据： 模型在微调后丧失了通用对话或常识回答能力。
推断： 直接将ES应用于生产环境的LLM持续学习是危险的。
评价： 从应用角度看，这篇论文的价值在于避坑。虽然ES因其无需反向传播而易于在边缘计算或黑盒API更新中部署，但本文证明其代价过高。未来的应用前景可能转向混合架构：利用ES进行快速探索，利用少量梯度数据进行“重播”以巩固记忆，或者仅在极低频的更新场景下使用。

5. 可复现性

论文声称： 方法论基于标准的进化策略（如OpenAI-ES或PGPE）。
证据： 论文描述了算法流程和算力对比标准。
推断： 只要具备相应的GPU集群，复现核心结论（ES导致遗忘）的难度较低。
评价： 进化策略的代码实现相对标准化，不涉及复杂的梯度截断或特定优化器技巧，因此可复现性较高。但需注意，LLM的训练对超参数（特别是学习率与噪声标准差）极为敏感，作者需公开具体的超参数配置以确保结果可复现。

6. 相关工作对比

论文声称： ES表现接近GRPO，但遗忘问题严重。
证据： 与GRPO的横向对比。
推断： 相比于基于梯度的方法（如SFT、LoRA、PPO），ES在持续学习场景下处于劣势。
评价：
- 优势： 相比于需要完整反向传播图的方法，ES确实更适合黑盒优化或显存受限的场景。
- 劣势： 与MEMO（Memory Replay）或正则化方法相比，ES在防止遗忘方面表现拙劣。

技术分析

以下是对论文《Evolutionary Strategies lead to Catastrophic Forgetting in LLMs》的深入分析报告。

深入分析报告：进化策略导致大语言模型的灾难性遗忘

1. 研究背景与问题

核心问题： 论文旨在探究在大型语言模型（LLM）的持续学习和在线微调场景中，使用进化策略替代传统基于梯度的算法（如PPO或GRPO）是否可行，重点揭示了ES在提升特定任务性能时引发的严重“灾难性遗忘”问题。

研究背景与意义： 当前顶尖的LLM通常在部署后即固定，缺乏实时适应新数据的能力。实现LLM的“持续学习”或“终身学习”是通往通用人工智能（AGI）的关键一步。

传统方法的瓶颈： 主流的强化学习算法（如PPO）及其变体（如GRPO）虽然有效，但通常需要巨大的显存来存储大量轨迹，或者依赖复杂的价值函数估计，计算开销昂贵。
ES的潜力： 进化策略作为一种“无梯度”优化方法，具有易于并行化、不需要反向传播计算图、内存占用相对较低的特点，被视为解决LLM在线训练痛点的潜在替代方案。

现有方法的局限性： 虽然ES在控制策略优化和某些小规模模型训练中表现优异，但在大参数规模的语言模型上，其对模型既有知识保留能力的影响尚未被充分理解。此前的研究多关注ES能否提升新任务性能，而忽视了其对旧知识的破坏。

重要性： 如果ES在提升新任务能力的同时会不可逆地破坏模型的基础能力（如语言理解、通用常识），那么它将无法应用于实际的AI系统部署。本研究通过实证分析揭示了这一致命缺陷，为后续研究指明了避坑方向。

2. 核心方法与创新

核心方法： 论文采用了对比实验的方法，将**进化策略（ES）与广义策略优化（GRPO）**在相同的算力预算和任务设置下进行直接比较。

ES实现： 采用标准的自然进化策略（NES）变种，通过在参数空间添加噪声来生成候选模型，根据环境反馈（奖励信号）更新参数。
对比基准： GRPO（Group Relative Policy Optimization），一种近期提出的无需 critic 网络的高效PPO变体，常用于数学推理任务。

技术创新点与贡献：

发现稀疏更新与遗忘的关联： 论文并非提出了新的算法，而是做出了重要的分析性贡献。研究指出ES的参数更新极度稀疏，即在一次更新步骤中，只有极少数参数被大幅修改，而绝大多数参数保持不变。
范数分析： 创新性地引入参数更新的 $\ell_2$ 范数作为分析指标，发现ES的更新范数比GRPO高出数个数量级，这是导致遗忘的数学表征。

优势与特色：

诊断性视角： 论文不仅仅报告实验结果，更深入剖析了导致遗忘的物理机制（参数稀疏性 + 高范数更新），这比单纯指出“ES效果不好”更具指导意义。
算力公平对比： 严格控制了计算资源，确保比较的公平性，证明了在同等成本下ES虽能提升任务性能但代价过大。

3. 理论基础

理论基础与假设：

黑盒优化假设： ES假设模型是一个黑盒函数，只需通过输入输出（奖励）来指导搜索，而不依赖梯度的内部结构。
参数空间扰动： 理论上，ES通过在参数空间 $\theta$ 添加高斯噪声 $\epsilon$ 来探索方向，利用奖励信号的加权平均来估计梯度。

数学模型与分析： 论文的核心理论分析集中在参数更新的统计特性上：

稀疏性： ES的更新向量通常具有极高的稀疏度。这意味着模型只有极少数的权重被剧烈修改，而不是像梯度下降那样对大量权重进行微调。
$\ell_2$ 范数爆炸： 设更新向量为 $\Delta \theta$，研究发现 $||\Delta \theta_{ES}||2 \gg ||\Delta \theta{GRPO}||_2$。
遗忘机制： 从理论上看，LLM的知识存储在参数的精细配置中。GRPO的小步长、全参数微调相当于“精细雕刻”，保留了大部分原有特征；而ES的大步长、稀疏更新相当于“重锤凿击”，虽然凿出了新的形状（新任务性能），但破坏了周围的结构（旧知识）。

4. 实验与结果

实验设计：

任务： 选择了数学和推理任务（如GSM8K等），这是LLM能力评估的硬骨头。
模型： 在开源LLM上进行微调。
评估指标：
1. 下游任务性能： 在数学任务上的准确率。
2. 遗忘程度： 在通用基准（如MMLU、Winogrande等）上的性能变化。

主要结果：

性能相当： 在数学任务上，ES能够达到与GRPO接近的性能提升。这证明了ES作为优化器在“学习新知”上的有效性。
严重遗忘： 在通用基准测试中，经过ES微调的模型性能出现了断崖式下跌，而GRPO微调的模型则能较好地保持原有能力。
更新范数验证： 实验数据定量地展示了ES更新向量的 $\ell_2$ 范数远超GRPO，且稀疏性极高，直接印证了作者的分析假设。

局限性：

任务范围： 主要集中在数学/推理任务，对于代码生成、创意写作等不同模态或性质的任务，遗忘的具体表现可能有所不同，但结论大概率一致。
ES变体： 论文主要测试了标准的ES，未涵盖所有可能的ES改进变体（如剪裁更新范数的ES），这为后续研究留下了空间。

5. 应用前景

实际应用场景： 鉴于其严重的遗忘问题，标准的ES目前不适合直接用于需要保留通用知识的LLM部署后微调。

产业化可能性：

低：作为一个通用的持续学习工具，标准ES目前不具备产业化潜力，因为破坏通用能力的代价是不可接受的。
特定领域例外： 如果一个应用场景完全不需要通用语言能力，只需要极致的特定任务性能（例如某种特定的格式化输出或极窄领域的优化），ES或许可以考虑，但即便如此，其不稳定性也是风险。

与其他技术的结合：

正则化与约束： 未来的应用方向可能在于结合EWC（弹性权重巩固）或知识蒸馏，在ES的损失函数中加入惩罚项，限制参数更新的幅度。
混合优化： 探索梯度信号与进化信号的混合使用，利用ES的全局搜索能力防止局部最优，同时利用梯度保持稳定性。

6. 研究启示

对领域的启示： 这篇论文是对当前“无梯度优化热潮”的一剂清醒剂。它提醒研究者，计算效率并非唯一指标。在LLM时代，模型的知识保持能力与模型的新任务学习能力同等重要。

未来的研究方向：

缓解ES遗忘： 研究如何在保持ES并行化优势的同时，降低更新范数（如通过截断、归一化）。
参数高效微调（PEFT）与ES： 探索ES仅应用于LoRA（Low-Rank Adaptation）等适配器层，而非全参数微调，可能从根本上解决遗忘问题。
智能体进化： 在进化Agent架构时，如何设计更适合神经网络参数空间的进化算法。

7. 学习建议

适合读者背景：

强化学习与优化算法方向的研究生。
大模型训练与微调（RLHF/RLAIF）方向的工程师。
对进化计算与深度学习交叉领域感兴趣的学者。

前置知识：

强化学习基础： 理解策略梯度、PPO的基本原理。
进化策略： 了解OpenAI早期的ES论文（如Salimans et al., 2017），理解噪声采样和梯度估计原理。
深度学习微调： 理解灾难性遗忘的概念及L2正则化。

阅读顺序：

先读摘要和结论，理解“ES导致遗忘”这一核心论点。
重点阅读图表部分，特别是对比ES和GRPO更新向量范数的图示。
深入实验结果部分，查看具体数值差异。
最后思考作者提出的“稀疏性”解释是否合理。

8. 相关工作对比

与同类研究的对比：

对比PPO/A3C（传统梯度RL）： 传统方法虽然计算重，但步长受学习率严格控制，遗忘相对可控。ES证明了“无梯度”并不等于“更安全”。
对比MosaicML的实验（早期探索）： 早期有研究认为ES在RLHF中可以替代PPO，但往往忽略了通用能力的评估。本文的严谨性在于全面评估了“副作用”。

创新性评估： 论文的算法创新性不高（未提出新算法），但分析创新性很高。它定量地解释了为什么ES在深度学习中虽然快但很少成为首选，特别是在需要保留先验知识的场景下。

领域地位： 这是一篇重要的“负面结果”或“警示性”论文。在AI学术界倾向于报道SOTA（State of the Art）的背景下，深入分析失败原因的工作对于推动领域健康发展尤为珍贵。

9. 研究哲学：可证伪性与边界

关键假设与归纳偏置：

假设： 参数空间的 $\ell_2$ 范数大小与遗忘程度呈正相关。
归纳偏置： 论文隐含假设“全参数更新”是导致遗忘的根本原因，而非ES算法本身的搜索策略逻辑。

边界条件与失败原因：

何时最可能失败？ 当新任务的奖励信号与旧知识的内部表征发生强烈冲突，且ES采用高探索率（大噪声）时，遗忘最严重。
为什么？ ES缺乏基于“当前策略”的局部约束。梯度下降本质上是在当前点附近的线性近似，自然受到局部地形限制；而ES更像是在远处投掷飞镖，容易飞出“知识保留流形”。

经验事实 vs. 理论推断：

经验事实： ES在数学任务上提升了分数，但在MMLU上大幅下降；ES的更新范数确实比GRPO大很多。
理论推断： “高范数和稀疏性是遗忘的直接原因”。这是一个合理的推断，但未完全排除其他因素（如ES的搜索方向本身是否更偏向于破坏语言模型的吸引盆）。

长尺度影响： 这篇论文推进的是**“理解”**而非“方法”。它揭示了黑盒优化与深度神经网络记忆机制之间的根本张力。代价是暂时否定了ES作为LLM通用微调工具的短期前景，但迫使研究者去思考更本质的问题：如何让进化算法尊重模型的先验知识结构？ 这可能催生下一代的结构化进化算法。

研究最佳实践

最佳实践指南

实践 1：采用混合优化架构

说明: 研究表明，纯进化策略（ES）在优化大规模语言模型时极易导致灾难性遗忘，因为突变算子会随机覆盖已习得的参数。最佳实践是将 ES 与基于梯度的微调（如 SFT 或 DPO）相结合，利用梯度方法保留预训练知识，同时利用 ES 的探索能力寻找新的最优解。

实施步骤:

确定基础优化流程为基于梯度的微调（如 AdamW 优化器）。
在特定阶段或特定层引入进化策略作为辅助优化手段，而非替代全部训练过程。
设计权重分配机制，确保梯度更新占据主导地位（例如 70%-90%），ES 更新作为扰动项。

注意事项: 避免在高风险任务上完全依赖黑盒优化算法进行全参数更新。

实践 2：实施参数高效微调（PEFT）隔离

说明: 灾难性遗忘通常源于模型底层特征提取器被大幅修改。通过使用 LoRA 或 Adapter 等技术，将 ES 的搜索空间限制在新增的少量参数上，可以确保模型主体（预训练权重）保持不变，从而避免遗忘通用知识。

实施步骤:

冻结 LLM 的主模型权重。
注入低秩分解矩阵或适配器层。
将进化策略的变异和选择操作仅应用于注入的参数层。

注意事项: 需监控新增参数对模型推理延迟的影响，并确保 ES 的种群规模适应较小的搜索空间。

实践 3：引入经验回放与数据混合

说明: 进化过程中的“优胜劣汰”倾向于最大化当前任务的奖励，这会导致模型对旧数据的分布敏感下降。必须在训练数据流中持续混入原始预训练数据或旧任务数据，以维持语言模型的通用能力。

实施步骤:

构建包含多样化领域的高质量数据集。
在 ES 的适应度评估阶段，不仅计算新任务的奖励，也要计算模型在旧数据集上的困惑度或准确率损失。
将“遗忘率”作为惩罚项加入适应度函数。

注意事项: 平衡新旧数据的比例至关重要，过多的旧数据可能导致模型无法适应新任务。

实践 4：多目标适应度函数设计

说明: 单一目标优化（仅关注当前任务性能）是导致遗忘的驱动力。实施多目标优化，明确将“知识保留”作为一个独立的目标，可以迫使算法在性能提升和知识保留之间寻找帕累托最优。

实施步骤:

定义适应度函数 $F(x) = \alpha \cdot R_{task}(x) - \beta \cdot L_{forget}(x)$，其中 $R$ 为任务奖励，$L$ 为遗忘损失。
调整 $\alpha$ 和 $\beta$ 系数，根据遗忘容忍度动态平衡两个目标。
在 ES 的选择阶段，优先选择那些在任务表现上良好且对旧数据影响较小的个体。

注意事项: 权重系数需要根据具体任务进行网格搜索或小规模验证，避免权重设置不当导致优化停滞。

实践 5：限制突变强度与步长

说明: 大幅度的参数突变是导致模型崩溃的直接原因。ES 中的突变步长（标准差）如果过大，会迅速破坏预训练阶段形成的精细特征。实施自适应步长控制或严格限制突变范围是必要的。

实施步骤:

使用自适应 ES（如 CMA-ES）或自然进化策略（NES）来动态调整突变步长。
设定硬性阈值，裁剪过大的参数更新量。
在训练初期采用较小的突变率，随着适应度提升逐渐增加探索范围。

注意事项: 步长过小可能导致收敛速度过慢，需要在探索能力和稳定性之间找到平衡点。

实践 6：建立知识蒸馏约束

说明: 在进化过程中，让当前模型尽可能模仿原始模型（教师模型）的输出分布。通过最小化当前模型与原始模型在通用数据上的 KL 散度，可以锁定已习得的知识，防止参数漂移。

实施步骤:

在计算适应度之前，先让模型在一份通用的校验集上运行。
计算当前模型输出与原始冻结模型输出之间的 KL 散度。
如果 KL 散度超过阈值，则大幅降低该个体的适应度得分，或直接丢弃该突变。

注意事项: 增加蒸馏步骤会显著增加计算开销，建议在离线评估阶段进行，而非每次迭代都进行全量计算。

学习要点

进化算法在微调大型语言模型时会导致灾难性遗忘，即模型在优化新任务时显著丧失对原有任务的性能。
与传统的梯度下降微调相比，进化策略更容易导致模型参数分布发生剧烈偏移，从而破坏已习得的知识表征。
研究发现进化算法中的高探索性虽然有助于发现新的最优解，但也增加了覆盖原有记忆路径的风险。
实验表明，在保持多任务平衡方面，基于梯度的微调方法比进化策略具有更好的知识保留能力。
这一发现揭示了在利用进化算法进行模型持续学习时，必须引入特定的记忆机制或约束来缓解遗忘问题。
该研究为理解不同优化算法对大型语言模型可塑性与稳定性之间权衡的影响提供了新的理论视角。

学习路径

阶段 1：基础概念与背景构建

学习内容:

大语言模型 (LLM) 基础：理解 Transformer 架构、自回归生成原理以及参数规模与性能的关系。
进化策略 (ES) 优化基础：学习自然进化策略 (NES)、CMA-ES 等传统算法，理解基于种群估计梯度的原理。
灾难性遗忘定义：了解在神经网络微调过程中，学习新任务导致旧任务性能急剧下降的现象。
LLM 高效微调方法：掌握 LoRA、Adapter 等参数高效微调 (PEFT) 技术，理解其与全量微调的区别。

学习时间: 2-3周

学习资源:

论文/文章: Attention Is All You Need (Vaswani et al.), LoRA: Low-Rank Adaptation of Large Language Models (Hu et al.)
博客: Lil’Log 系列关于变分推断和进化算法的文章
课程: 斯坦福大学 CS231n (部分优化章节)

学习建议: 重点理解传统基于梯度的优化（如 SGD/Adam）与进化策略在更新参数时的数学差异。建立对“黑盒优化”场景的直观认识。

阶段 2：核心机制与问题分析

学习内容:

ES 在 LLM 中的应用：研究为何在 LLM 中使用 ES（如黑盒场景、强化学习对齐），以及 ES 如何通过扰动参数进行优化。
遗忘的数学归因：深入理解论文核心论点——ES 的更新方向是基于当前种群的随机采样，缺乏对历史任务梯度的明确记忆，导致参数空间偏离旧任务的流形。
损失景观：分析多任务训练中的尖锐极小值与平坦极小值，以及 ES 如何倾向于破坏原有的泛化能力。
对比实验分析：对比 AdamW（基于梯度）与 ES 在相同数据集上的遗忘曲线差异。

学习时间: 3-4周

学习资源:

核心论文: Evolutionary Strategies lead to Catastrophic Forgetting in LLMs (arXiv 来源)
相关研究: Continual Learning in Deep Neural Networks: A Surveys
代码库: OpenAI ES 的实现参考，DeepMind 的相关优化代码

学习建议: 阅读目标论文时，重点关注实验部分，特别是“遗忘率”的量化指标。尝试复现或思考：如果改变 ES 的种群大小或扰动方差，遗忘现象是否缓解？

阶段 3：缓解策略与前沿探索

学习内容:

持续学习技术：学习 EWC (Elastic Weight Consolidation)、记忆回放和动态网络架构。
ES 改进方案：探索混合优化策略，例如将 ES 与基于梯度的方法结合，或使用正则化项限制参数移动范围。
正交化与子空间投影：学习如何将新任务的更新投影到与旧任务正交的子空间中，以减少干扰。
模型合并理论：了解如何将多个微调后的模型合并，作为解决遗忘的一种后处理手段。

学习时间: 4-6周

学习资源:

论文: Overcoming Catastrophic Forgetting with Elastic Weight Consolidation (Kirkpatrick et al.), TIES-Merging, DARE
研讨会: ICML/NeurIPS 持续学习研讨会
技术博客: Hugging Face 关于模型合并与微调的工程指南

学习建议: 思考如何将传统的 CL (Continual Learning) 算法移植到基于 ES 的训练循环中。这一阶段需要较强的编程能力，建议尝试在小规模模型（如 GPT-2）上实现简单的防遗忘机制。

阶段 4：精通与科研实践

学习内容:

理论极限分析：研究 ES 的收敛速度与遗忘速率之间的数学权衡。
新型架构设计：探索对遗忘具有鲁棒性的模型架构（例如超网络）。
自定义实验设计：设计实验验证不同正则化手段在 ES 场景下的有效性。
前沿方向追踪：关注非梯度优化在超大模型中的最新进展，以及其在模型对齐中的安全性问题。

学习时间: 持续进行

学习资源:

顶会论文: NeurIPS, ICLR, ICML 最新会议论文
学术社区: Papers with Code 上的 Catastrophic Forgetting 任务榜单
预印本: arXiv 上的 cs.LG 和 cs.AI 分类每日更新

学习建议: 尝试提出自己的假设。例如，“是否可以通过引入某种记忆机制来保留进化过程中的‘精英’参数？”。此时你应该具备独立开展研究或解决工程难题的能力。

常见问题

1: 什么是“灾难性遗忘”，在这项研究中它具体是如何发生的？

A: “灾难性遗忘”是指人工智能模型在学习新任务或新环境时，突然彻底遗忘之前已学知识的现象。在这篇关于“进化策略导致大语言模型灾难性遗忘”的研究中，这一现象特指当研究人员使用进化策略来优化大语言模型（LLM）的参数时，模型虽然可能在适应新环境或特定任务上表现出色，但其通用的语言能力（如回答常识性问题、进行基础推理等）却出现了断崖式的下降。研究发现，进化算法倾向于寻找能够最大化当前奖励的局部最优解，这种解往往具有高度的特异性，导致模型失去了处理其他任务所需的通用特征。

2: 为什么使用进化策略会导致大语言模型出现灾难性遗忘？

A: 这主要归结于进化策略与大语言模型高维参数空间之间的特性冲突。首先，进化策略通常是一种“贪婪”的搜索方法，它只关注如何最大化当前的适应度函数，缺乏像反向传播那样对历史数据的明确记忆机制。其次，大语言模型的参数空间极其庞大且复杂，进化策略在搜索过程中容易陷入“窄峰”，即找到的参数解虽然对特定任务得分很高，但破坏了模型原有的泛化结构。相比之下，传统的预训练和微调方法通常通过保留部分旧数据或使用正则化手段来维持通用能力，而纯粹的进化策略往往缺乏这种保护机制。

3: 这项研究是否意味着我们不应该在大语言模型中使用进化算法？

A: 不完全是。这项研究揭示了一个重要的风险信号，但并不意味着进化算法在 LLM 领域毫无用处。进化策略在不需要梯度计算的情况下进行优化，这对于那些不可微的环境或者极其复杂的奖励函数（例如黑盒优化）非常有价值。研究的目的在于警示研究人员：在应用进化策略时，必须采取额外的措施来防止通用能力的丧失。未来的方向可能是将进化算法与正则化技术结合，或者设计混合算法，在利用进化策略探索能力的同时，保护模型的核心语言能力不被覆盖。

4: 进化策略导致的遗忘与传统的微调导致的遗忘有什么区别？

A: 虽然结果都是模型性能下降，但机制有所不同。传统的微调导致的灾难性遗忘通常是因为模型权重为了适应新数据分布而发生了偏移，覆盖了旧知识，这通常可以通过“弹性权重巩固”（EWC）或“重放旧数据”来缓解。而进化策略导致的遗忘往往更为剧烈和突然，因为 ES 是一种随机搜索算法，它通过在参数空间中添加噪声和筛选来工作，这种全局性的扰动更容易破坏掉模型中精细排列的、负责通用推理的神经回路，而不仅仅是调整权重分布。

5: 研究中提到的“对齐税”或“效用下降”具体指什么？

A: 在此语境下，这指的是模型为了适应特定的进化目标（例如通过某种特定的安全测试或环境交互）所付出的代价。具体来说，就是模型在“对齐”特定目标的过程中，其原本具备的广泛效用发生了退化。例如，一个经过进化策略优化的模型可能在一个特定的数学基准测试中得分很高，但却失去了编写代码或进行日常对话的能力。这种“顾此失彼”的现象就是研究强调的核心问题，即模型在特定维度的进化导致了整体维度的灾难性崩溃。

6: 有什么方法可以缓解这种由进化策略引起的遗忘吗？

A: 根据现有研究及机器学习领域的通用原则，可能的缓解策略包括：1. 混合目标函数：在进化过程中，不仅奖励新任务的得分，也对模型在通用基准测试上的表现进行惩罚或奖励；2. 参数隔离：只允许模型的一部分参数参与进化，冻结负责核心通用能力的层；3. 周期性评估：在进化过程中定期评估模型的通用能力，一旦发现下降立即回溯或调整搜索方向；4. 数据回放：在适应新环境的同时，持续让模型接触一部分通用的预训练数据，以维持其基础语言能力。

7: 这项发现对于未来的人工智能安全和对齐研究有什么启示？

A: 这项发现对 AI 安全具有重要意义。许多研究人员希望通过进化算法或强化学习来让模型符合人类价值观（即 AI 对齐）。然而，如果这种方法导致模型失去了作为智能体的核心推理和认知能力，那么这种“对齐”是毫无意义的，甚至可能导致模型在不熟悉的场景下做出不可预测的危险行为。这提示我们，在设计对齐算法时，必须将“维持模型的基本能力”作为一个核心约束条件，避免为了追求单一指标的对齐而“杀死了”模型的智能。

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**: 在使用进化策略（ES）微调大型语言模型（LLM）时，为什么模型在适应新任务时会表现出对旧任务的“灾难性遗忘”？请结合 ES 算法更新参数的基本机制进行解释。

提示**: 考虑 ES 是通过采样噪声来估计梯度的，以及这种更新方式与神经网络参数空间中“旧任务性能”区域的几何关系。

引用

ArXiv: http://arxiv.org/abs/2601.20861v1
PDF: https://arxiv.org/pdf/2601.20861v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 论文
标签：进化策略 / 灾难性遗忘 / 持续学习 / LLM / GRPO / 无梯度优化 / 模型微调 / cs.LG
场景：大语言模型

✨告别遗忘！Self-Distillation解锁持续学习新范式！
测试时也能发现新规律？🤯AI解锁动态学习能力！
🔥LLM训练动力学新突破！可扩展损失景观曲率度量🚀
🔥LLM训练动力学新突破！可扩展损失景观曲率度量！
🔥LLM序列标注新突破！揭秘高效策略，性能飙升！ 本文由 AI Stack 自动生成，深度解读学术研究。

进化策略导致大语言模型出现灾难性遗忘