LLM 模型合并率未见提升，技术瓶颈待解

基本信息

作者: 4diii
评分: 110
评论数: 109
链接: https://entropicthoughts.com/no-swe-bench-improvement
HN 讨论: https://news.ycombinator.com/item?id=47349334

导语

大模型合并（LLM merging）技术近期引发了广泛关注，但其性能提升是否真的如预期般显著，目前仍存在争议。深入探讨合并率的实际进展与瓶颈，有助于我们更客观地评估这一技术的潜力和局限。本文将分析当前合并方法的实验数据，剖析影响效果的关键因素，并为开发者提供优化思路。

学习要点

基于您提供的标题和来源（Hacker News），以下是关于“LLM 合并率是否没有变好？”这一讨论通常涉及的关键要点总结：
模型合并技术正从简单的线性加权（如线性合并）转向更复杂的非线性和基于任务的方法，以解决通用能力与特定任务性能之间的权衡。
尽管合并后的模型在基准测试中表现优异，但“合并率”或实际效果的提升已遇到瓶颈，单纯增加模型规模或数据量不再保证合并效果的线性增长。
社区发现合并模型往往在基准测试中存在“应试”痕迹，导致其评估分数虚高，而在实际生产环境中的泛化能力可能不如原始基础模型。
随着开源模型数量的激增，如何从海量候选模型中选择正确的“父模型”进行合并，已成为比合并算法本身更关键的挑战。
当前合并技术的一个主要局限性在于“灾难性遗忘”问题，即在增强模型某一方面能力时，往往会导致其他方面能力的显著下降。
专家混合架构被视为解决合并瓶颈的潜在方向，它试图通过动态激活不同的参数子集来整合不同模型的优势，而非静态地融合权重。

常见问题

1: LLM 的合并率具体指的是什么？为什么它很重要？

A: 在大语言模型的语境下，“合并率”通常指的是模型合并或模型融合技术的效果与普及程度。这是一种将多个独立训练好的微调模型（例如，一个擅长数学，一个擅长写作）的参数组合成一个单一模型的技术。

这之所以重要，是因为它允许社区在不进行昂贵的全量重新训练的情况下，综合利用不同模型的优势，试图打造一个“全能”模型。如果“合并率没有变好”，意味着这种低成本提升模型性能的方法可能遇到了瓶颈，或者新的合并技术（如线性合并、TIES、DARE等）无法像以前那样带来显著的性能提升。

2: 为什么有人认为 LLM 合并的效果没有以前那么好了？

A: 这种观点主要基于以下几个观察：

边际效应递减：早期的模型合并往往能带来巨大的性能飞跃（例如将两个特定领域的模型合并，意外获得了通用的能力提升）。随着基础模型能力的提升，通过简单的参数加权平均来榨取额外性能变得越来越难。
模型能力的冲突：当试图合并两个在某些任务上表现优异但“思维方式”不同的模型时，合并后的模型可能会出现“灾难性遗忘”或能力冲突，导致综合性能反而下降。
数据同质化：许多开源微调模型是基于非常相似的数据集（如ShareGPT）训练的。合并两个本质上学了同样东西的模型，并不能带来新的知识，只是在放大相同的特征。

3: 当前 LLM 合并面临的最大技术瓶颈是什么？

A: 最大的瓶颈在于任务冲突和权重干扰。

简单的合并方法（如线性插值）假设模型参数是独立且可加的，但实际上并非如此。当模型A在任务X上的权重需要是正值，而模型B在任务Y上的权重需要是负值时，简单的合并会导致两者互相抵消，性能受损。虽然出现了TIES和DARE等试图修剪冗余参数的高级技术，但如何在不破坏模型推理能力的前提下，完美融合截然不同的知识域，仍然是一个未解决的难题。

4: 基础模型能力的提升是否降低了模型合并的必要性？

A: 是的，这是一个重要因素。

随着像GPT-4、Claude 3.5或Llama-3-70B这样强大的基础模型出现，它们本身就已经具备了极宽泛的知识面和指令遵循能力。以前我们需要合并一个“数学模型”和一个“写作模型”来弥补小模型的缺陷，而现在一个强大的基础模型可能已经在这两方面都达到了及格线以上的水平。因此，合并带来的“性价比”相对下降了，除非是为了极特定的垂直领域。

5: 除了简单的参数合并，还有哪些替代方案或未来方向？

A: 如果参数合并的效果停滞，社区正在转向以下方向：

混合专家架构：不合并权重，而是训练一个路由网络，根据输入问题动态调用不同的专家模型。这保留了每个模型的独立性，避免了参数冲突。
知识蒸馏：使用一个强大的教师模型来训练一个小型的学生模型，而不是合并两个同级模型。
数据级合成：不再合并权重，而是合并训练数据集。通过清洗和组合高质量的数据集，从头训练或继续训练一个效果更好的模型。

6: 开源社区（如 Hugging Face）对这一趋势有什么反应？

A: 开源社区对合并模型的态度正在变得更加务实。

早期的“合并狂热”正在消退，人们不再盲目地发布成千上万个没有实质性改进的合并模型。现在的趋势是更加精细化的合并，例如只合并特定的层，或者使用更复杂的算法（如Passthrough/Mergekit的高级配置）。同时，更多的注意力转向了合成数据生成，试图通过数据质量来突破性能天花板，而不是依赖模型权重的数学组合。

7: 对于普通用户或开发者来说，这意味着什么？

A: 这意味着您可能不应该再指望通过下载两个随机的微调模型并进行简单的合并来获得“最先进”的模型。

如果您需要高性能模型，建议直接使用经过充分训练的旗舰级基础模型。如果您有特定需求，寻找专门在该领域微调过的单一模型，可能比使用一个“大杂烩”式的合并模型效果更好。合并技术现在更多是作为一种研究工具或微调辅助手段，而不是一种神奇的炼金术。

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**: 请查阅当前的模型合并技术（如 Model Soups, SLERP, TIES 或 DARE）相关文献，并定义什么是“合并率”。在模型权重合并的语境下，通常有哪些具体的指标可以用来量化合并的成功与否或性能提升？

提示**: 关注模型合并领域的基础论文，特别是关于权重平均方法和合并后模型在基准测试上的表现。不要将“合并率”与训练时的学习率混淆。

引用

原文链接: https://entropicthoughts.com/no-swe-bench-improvement
HN 讨论: https://news.ycombinator.com/item?id=47349334

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / AI 工程
标签： LLM / 模型合并 / 模型融合 / 技术瓶颈 / 模型评估 / 模型优化 / AI 研究 / 性能分析
场景：大语言模型 / AI/ML项目

仅改用Harness框架即可提升15个大模型编程能力
Agent评估显示AGENTS.md配置优于技能配置
压缩智能体：Agent Skills 技术解析
AI 基准测试新进展：Game Arena 推进评估方法
2026年AI展望：LLM、智能体、算力与中国角色 本文由 AI Stack 自动生成，包含深度分析与可证伪的判断。

AI Stack

LLM 模型合并率未见提升，技术瓶颈待解