长思维链监督微调中数据重复优于数据扩展
基本信息
- ArXiv ID: 2602.11149v1
- 分类: cs.CL
- 作者: Dawid J. Kopiczko, Sagar Vaze, Tijmen Blankevoort, Yuki M. Asano
- PDF: https://arxiv.org/pdf/2602.11149v1.pdf
- 链接: http://arxiv.org/abs/2602.11149v1
导语
本文探讨了推理模型在长思维链监督微调阶段的数据效率问题,核心发现是增加训练轮次(数据重复)的效果优于单纯扩大数据规模(增加唯一样本)。这一结论挑战了“数据越多越好”的传统直觉,表明在特定场景下,通过重复高质量数据可能比扩充数据集更能提升模型性能。虽然摘要未详述具体机制,但该研究为资源受限下的模型优化提供了新视角。
摘要
以下是对该内容的中文总结:
核心发现:在长链思维监督微调中,数据重复优于数据规模扩展
这篇研究提出,在针对推理能力的语言模型监督微调(SFT)阶段,“增加训练轮次(数据重复)”比“扩大数据规模(增加唯一样本)”效果更好。
1. 打破常规直觉 传统的机器学习观点通常认为训练数据越多(唯一样本越多),模型的泛化能力越好。然而,该研究发现,在固定的总更新预算(即训练计算量)下,使用较小的数据集进行多轮重复训练,其表现显著优于使用大规模数据集仅训练一轮。
2. 实验证据 在AIME'24/25和GPQA等高难度推理基准测试中,研究者对比了两种训练方式:
- 大规模单轮训练: 使用51,200个样本训练1轮。
- 小规模多轮训练: 仅用400个样本训练128轮。
结果显示,后者(Olmo3-7B模型)比前者性能高出12-26个百分点,且并未出现额外的“灾难性遗忘”问题。
3. 训练机制与信号 研究发现,训练Token的准确率是一个可靠的信号。当重复训练带来的收益趋于饱和时,准确率会停止上升;此时模型往往已经完全记住了训练数据。这种“完全记忆化”恰好 coincide(重合)于模型泛化能力的提升点。
4. 实际意义 这一发现为推理模型的微调提供了实用路径:与其耗费高昂成本去寻找和扩展海量未标注数据,不如利用现有的高质量数据进行多轮重复训练,并以训练Token准确率作为停止标准。
5. 理论挑战 作者最后提出了一个新的开放性问题,即“重复优势”:为何在模型完全记住训练数据的同时,其泛化能力反而得到了提升?这挑战了现有对大语言模型训练动力学的理解。
评论
深度评论:数据重复优于数据扩展——基于Long-CoT监督微调的实证研究
总评
该研究针对当前大语言模型(LLM)推理能力训练中普遍依赖大规模数据集的现状,在长链思维监督微调的特定语境下提出了修正观点。通过实证分析,作者指出在固定计算预算下,增加训练轮次(数据重复)比扩大数据集规模(唯一样本数)更能有效提升模型的推理性能。这一发现为优化SFT(监督微调)策略及计算资源分配提供了参考依据。
以下从六个维度进行详细剖析:
1. 研究创新性
- 核心观点:在Long-CoT SFT中,优化步数是提升推理性能的关键变量,而数据集的多样性或规模在达到特定阈值后,其边际效应递减。
- 证据分析:该研究挑战了机器学习领域关于“增加数据量必然提升性能”的传统认知。与通常强调数据参数量的Scaling Law不同,实验表明在推理任务中,让模型在有限的高质量样本上进行多次梯度下降,比在大量样本上进行单次学习更为有效。
- 评价:这揭示了推理任务与通用语言建模任务的差异。推理能力的习得更类似于对算法模式的掌握,需要通过反复训练来巩固思维路径,而非单纯依赖数据量的累积来扩展知识面。该研究将“学习效率”置于“数据规模”之上,对当前的数据合成策略提出了新的思考方向。
2. 理论贡献
- 理论假设:模型在推理任务上的泛化能力,主要取决于其对特定推理模式的拟合程度,而非训练数据的分布覆盖率。
- 机制探讨:该研究隐含地提出了针对推理任务的特定Scaling Law视角,表明在SFT阶段,计算量与数据量之间存在非线性权衡。当数据质量满足一定标准时,计算因子的权重可能超过数据因子。
- 推论:这可能意味着Long-CoT微调过程主要侧重于让模型学习“形式推理”的结构,而非单纯吸收新知识。过度的数据多样性若缺乏质量控制,反而可能引入噪声,干扰模型对推理路径的深度拟合。
3. 实验验证
- 实验设计:研究在AIME'24/25和GPQA等高难度数学与科学推理基准上进行了对比实验。在控制总计算量一致的前提下,对比了“大数据集单轮训练”与“小数据集多轮训练”的效果。
- 结果评估:实验结果显示,在多个基准测试中,增加训练轮次带来的性能提升显著优于单纯扩大数据集规模。这种跨数据集的一致性增强了结论的可信度。
- 边界条件:该结论的有效性高度依赖于基础数据的质量。如果训练集中存在逻辑偏差或标注错误,重复训练可能会导致模型对这些错误逻辑产生过拟合。
- 验证建议:建议进行**“噪声标签敏感性测试”**,即在训练数据中注入特定比例的逻辑错误(如5%-10%),对比重复训练与单轮训练下的性能表现,以确定该方法对数据质量的鲁棒性边界。
4. 应用前景
- 实用价值:该发现对于计算资源受限的学术研究及工业应用具有指导意义。
- 优化数据策略:无需追求大规模的合成数据,通过数千条高质量数据的精细化多轮训练,即可获得具有竞争力的推理性能。
- 专用模型训练:为训练类似DeepSeek-R1或OpenAI-o1的推理模型提供了新的范式参考,即采用“精讲多练”的策略。
- 趋势研判:这可能会促使SFT数据市场的关注点从“数据规模”转向“数据质量”,经过严格验证的高质量数据将更具价值。
5. 可复现性与局限性
- 方法清晰度:论文明确界定了计算预算的控制方法及训练轮数的设置,方法论描述清晰,不存在技术壁垒。
- 潜在风险:复现工作的难点在于基座模型的选择。不同基座模型对过拟合的敏感度存在差异。若基座模型在预训练阶段已接触过SFT数据(数据污染),重复训练的效果可能会被高估。
- 注意事项:在复现过程中,需严格审查训练集与测试集之间的数据重叠,以确保性能提升源于推理能力的增强,而非对测试集答案的记忆。
6. 相关工作对比
- 对比分析:与Gemma 2或Llama 3等技术报告通常强调大规模合成数据的路径不同,该研究更精细地区分了“通用知识获取”与“推理能力训练”的差异,指出了不同目标应采用不同的优化策略。
- 局限与补充:现有研究(如DeepSeek-R1)通常采用多阶段策略(先SFT后RL)。本文主要聚焦于SFT阶段,未充分探讨SFT阶段的高强度重复训练是否会对后续强化学习(RL)阶段的探索能力产生负面影响。
技术分析
技术分析:长链思维微调中的数据重复策略
1. 研究背景与问题
核心问题: 在计算预算固定的前提下,如何通过监督微调(SFT)最有效地提升大语言模型(LLM)的复杂推理能力?研究主要对比了两种策略:一是“数据扩展”,即使用大规模数据集进行单轮次训练;二是“数据重复”,即使用小规模数据集进行多轮次训练。
研究背景: 当前主流观点遵循“缩放定律”,倾向于认为增加数据规模和多样性是提升性能的关键。然而,构建高质量的链式思维数据成本高昂。该论文探究了在资源受限时,通过增加训练轮次深度挖掘现有数据的潜力。
现有局限性: 传统的SFT策略通常避免数据重复,基于的假设是:重复数据会导致过拟合,从而损害模型的泛化能力。因此,现有方法往往致力于扩充数据集规模,而较少探索在固定预算下对有限数据进行深度训练的效果。
2. 核心方法与创新
核心方法: 论文提出并验证了一种**“高重复率训练策略”**。在固定的总优化步数下,对比了两种配置:
- 数据扩展模式: 使用大量样本,每条样本仅训练1个Epoch。
- 数据重复模式: 使用少量样本,对每条样本进行多次重复训练。
技术创新点与贡献:
- 验证了高重复率的有效性: 实验表明,在长链思维微调中,即便模型完全记忆了训练数据(训练准确率100%),其在测试集上的性能依然能够提升,并未出现典型的过拟合导致的泛化崩塌。
- 引入“训练Token准确率”指标: 建议将训练集上的Token准确率作为监控指标。当模型对训练数据的拟合达到极高水平时,往往对应着较好的推理性能。
- 揭示“记忆与泛化”的关系: 在推理任务中,模型对长链条推理过程的记忆,有助于其学习和内化逻辑结构。
优势: 该方法降低了数据工程的规模压力,允许开发者将资源集中在少量样本的质量优化上(如确保推理链条的逻辑严密性),且无需引入额外的算法复杂度。
3. 理论基础
理论假设: 研究基于以下假设:推理能力的习得机制不同于一般的模式识别。
- 模式识别任务通常需要大量样本来覆盖数据分布的方差。
- 逻辑推理任务可能更依赖于对特定逻辑路径的深度强化。模型可能需要通过多次重复来“压缩”并内化这种逻辑结构。
优化动力学分析: 从优化角度来看,在固定预算 $B$ 下,总步数 $S$、数据量 $N$ 与重复轮数 $E$ 满足 $S = N \times E$。
- 传统观点认为 $N$ 越大,梯度估计的方差越小,收敛越稳健。
- 论文指出,当 $N$ 较小且 $E$ 较大时,尽管单次更新的梯度方差可能较大,但累积的参数更新步数带来的优化收益,在非线性推理任务中可以抵消甚至超越方差带来的负面影响。
4. 实验与结果
实验设计:
- 模型: OLMo-7B(Instruct版本)。
- 数据: 基于公开的合成数据集(如NuminaMath, DeepSeekMath等)构建长链思维样本。
- 基准测试: AIME 2024/2025(数学竞赛)、GPQA(研究生级科学问题)。
- 变量控制: 保持总训练步数恒定,调整数据集大小与重复次数的比率。
主要结果:
- 性能对比: 在AIME和GPQA等高难度基准测试中,使用少量数据进行高倍率重复训练的模型,其表现显著优于使用大量数据进行单轮训练的模型。
- 训练动态: 观察到测试集准确率随着训练轮次的增加而持续上升,即使训练损失已接近零。这与传统的“早停”策略相悖,表明在推理任务中,模型对训练数据的完美拟合并未损害其解决未知问题的能力。
结论: 在长链思维监督微调中,数据重复策略在固定预算下优于数据规模扩展策略。这意味着对于推理能力的训练,数据的质量和训练的充分性(步数)可能比数据的数量和多样性更具决定性作用。
研究最佳实践
最佳实践指南
实践 1:优先增加训练数据的重复次数,而非盲目扩大数据规模
说明: 在长思维链监督微调中,模型对推理模式的掌握深度比接触不同题目的广度更重要。研究发现,在计算资源预算有限的情况下,对同一份数据集进行多次重复训练,比使用更多样化但仅训练一次的数据集能获得更好的推理性能。数据重复能强化模型对特定推理路径的记忆与模仿能力。
实施步骤:
- 确定核心的高质量长思维链数据集(如数学证明、逻辑推理数据)。
- 设定训练预算,计算在该预算下可以对数据集进行多少个完整的遍历。
- 将数据集重复倍数设为高优先级,优先保证模型能看到相同数据 3-5 次以上,而不是去收集新的数据。
注意事项: 虽然重复训练有益,但需配合适当的权重衰减或正则化手段,以防止模型在极高频重复下出现过拟合导致的灾难性遗忘。
实践 2:在长上下文训练中采用“小步长”学习率策略
说明: 由于数据重复会导致模型在相同样本上多次更新梯度,容易造成训练不稳定。在长上下文场景下,使用较小的学习率可以让模型更平滑地吸收推理结构,避免因重复数据带来的梯度震荡,从而确保模型在长序列生成中的稳定性。
实施步骤:
- 初始学习率设置应低于常规微调(例如常规微调的 50%-70%)。
- 采用线性余弦衰减调度器,确保在训练后期平稳收敛。
- 监控训练 Loss 曲线,若出现剧烈波动,应立即降低学习率。
注意事项: 不要使用过大的 Batch Size 来弥补学习率的不足,长 CoT 训练对显存要求较高,需在 Batch Size 和学习率之间找到平衡。
实践 3:构建高质量的“长思维链”合成数据
说明: 数据重复策略的前提是数据本身质量极高。如果基础数据包含错误的推理逻辑或简短的输出,重复只会放大这些错误。必须确保训练数据包含完整的、逐步推导的推理过程,而不仅仅是最终答案。
实施步骤:
- 使用强模型(如 GPT-4 或 Claude)生成“思维过程”数据,强制要求模型输出“Let’s think step by step”。
- 清洗数据,剔除推理链过短或逻辑跳跃的样本。
- 验证推理链的正确性,确保最终答案与推理步骤一致。
注意事项: 合成数据的多样性可以适当降低,但逻辑严密性必须放在首位。宁可对 1000 个完美样本重复训练,也不要对 10000 个有瑕疵的样本进行训练。
实践 4:实施严格的过拟合监控与评估
说明: 在数据重复训练范式下,训练集 Loss 会迅速下降并趋向于零,但这并不代表模型能力提升。必须依赖独立的验证集来监控泛化能力,防止模型仅仅是在“背诵”推理文本,而不是学会推理。
实施步骤:
- 准备一个与训练集分布不同但逻辑相似的验证集。
- 每 500 步评估一次验证集上的 Loss 和任务准确率(如数学题的解题正确率)。
- 当验证集准确率开始下降或 plateau 时,即使训练集 Loss 还在下降,也应考虑停止训练。
注意事项: 关注验证集上的生成质量,而不仅仅是 Loss。有时 Loss 上升但生成的逻辑更通顺,这可能是由于模型正在摆脱局部最优。
实践 5:优化长序列的注意力机制与显存管理
说明: 长思维链意味着输入和输出序列都很长。在重复训练过程中,显存带宽和计算量是主要瓶颈。优化注意力机制可以加速训练,使得在有限时间内完成更多 Epoch 的重复训练成为可能。
实施步骤:
- 使用 Flash Attention 2 或类似的注意力实现技术来加速长序列计算。
- 考虑使用梯度检查点技术来以计算换显存,从而支持更大的 Batch Size 或更长的上下文长度。
- 对输入 Prompt 进行必要的截断,保留核心问题,去除冗余信息,留出更多 Token 给思维链生成。
注意事项: 在截断上下文时,不要截断推理链部分。推理链的完整性对于学习逻辑模式至关重要,宁可截断问题描述,也要保证推理过程的完整。
实践 6:混合训练:少量高质量数据 + 适度重复
说明: 虽然数据重复有效,但极端的单一数据重复可能导致模型领域适应性变差。最佳实践是“核心数据集高倍重复”与“辅助数据集低倍重复”相结合。核心数据集用于教会模型“如何推理”,辅助数据集用于教会模型“在什么语境下推理”。
实施步骤:
- 将数据分为两部分:核心推理数据(占 20%)和通用指令数据(占 80%)。
- 对核心推理数据进行 10-20 次重复
学习要点
- 在长思维链监督微调中,增加高质量训练样本的重复次数比单纯扩大数据集规模更能显著提升模型的推理性能。
- 数据重复能够有效提升模型在分布外测试集上的泛化能力,而单纯的数据扩充往往会导致过拟合。
- 对于长上下文推理任务,模型在训练过程中对高质量样本的“见”的次数比“见”了多少种不同的样本更为关键。
- 该发现挑战了传统大语言模型微调中“数据越多越好”的 Scaling Law 定律,强调了数据质量与利用率的优先级。
- 实验证明,仅使用极少量(如 100 条)的高质量数据进行重复训练,其效果优于使用数千条数据进行微调。
- 这种“数据重复优于扩展”的范式为解决长思维链微调中面临的高质量数据稀缺问题提供了极具性价比的解决方案。
学习路径
学习路径
阶段 1:前置知识与背景理解
学习内容:
- 大语言模型基础: 理解 Transformer 架构、预训练与微调的基本概念。
- 监督微调 (SFT) 原理: 学习 SFT 在模型对齐中的作用,以及数据质量与数量的权衡。
- 长思维链 概念: 理解 CoT 是如何提升模型推理能力的,以及 “Long” CoT 相比传统 CoT 的区别与优势。
- 论文背景调研: 了解当前提升模型推理能力的主流范式(如数据规模 Scaling Law vs. 数据质量/重复)。
学习时间: 1-2周
学习资源:
- 课程: 斯坦福大学 CS224N (NLP with Deep Learning) 或 Andrew Ng 的深度学习专项课程。
- 博客/文章: “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models” (Wei et al.) 原文解读。
- 论文: “Scaling Laws for Neural Language Models” (Kaplan et al.),理解数据规模定律的传统观点。
学习建议: 在深入阅读目标论文之前,务必对 Transformer 机制和标准的 SFT 流程有直观认识。建议手动实现过简单的 Transformer 模块或使用过 Hugging Face Transformers 库进行微调,以便理解后续的实验设置。
阶段 2:论文核心研读与实验复现
学习内容:
- 核心论点解析: 深入理解为什么在 Long-CoT SFT 中,数据的重复比增加数据规模更有效。重点关注模型在遇到重复数据时的泛化行为。
- 实验设计分析: 研究论文中的实验设置,包括控制变量(数据量 vs. 重复次数)、评估基准(如 MATH, GSM8K 等)以及损失函数的变化曲线。
- 代码实现: 尝试使用开源框架(如 DeepSpeed, Unsloth)对小型模型(如 Llama-3-8B 或 Qwen-7B)进行不同重复率下的 SFT 实验,验证论文结论。
学习时间: 3-4周
学习资源:
- 核心论文: “Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning” (arXiv 链接)。
- 代码库: Hugging Face Transformers 文档, TRL (Transformer Reinforcement Learning) 库。
- 数据集: 公开的数学推理数据集(GSM8K, MATH)以及相关的 Long-CoT 构造数据集。
学习建议: 阅读论文时,建议绘制图表来记录 “Epoch” 与 “Validation Performance” 之间的关系。在复现时,重点观察过拟合是否像论文描述的那样延迟发生,或者模型是否在重复数据中学会了更稳定的推理模式。
阶段 3:深度优化与生产应用
学习内容:
- 数据工程: 学习如何构建高质量的 Long-CoT 数据集。这包括如何生成、清洗和筛选数据,以及如何设计数据重复策略以达到最佳效果。
- 训练技巧: 掌握高级微调技巧,如学习率调度、参数高效微调(LoRA)在长文本上的应用,以及混合训练策略。
- 评估与部署: 学习如何针对推理任务构建自动化评估管线,以及如何将微调后的模型量化并部署到实际应用中。
学习时间: 4-6周
学习资源:
- 工具: Weights & Biases (WandB) 用于实验追踪, vLLM 用于推理加速。
- 相关论文: 查阅关于数据合成与蒸馏的最新论文(如 “Magpie” 等),了解如何获取更多 Long-CoT 数据。
- 社区: Hugging Face Discord 社区, Reddit r/LocalLLaMA。
学习建议: 在此阶段,应尝试构建一个完整的端到端项目。例如,收集特定领域的推理数据,应用论文中的 “重复优于扩展” 策略进行训练,并对比直接扩大数据规模的效果。关注训练过程中的显存占用和收敛速度。
常见问题
1: 这篇论文的核心发现是什么?
1: 这篇论文的核心发现是什么?
A: 论文的核心发现是,在长思维链的监督微调过程中,数据重复比数据扩展更有效。
具体而言,研究团队通过实验发现,当训练数据量保持不变时,使用较少的高质量样本并在训练过程中进行多次重复,其效果远好于使用大量未经充分筛选的样本进行单次训练。这意味着在 Long-CoT(长思维链)场景下,让模型反复学习同一批高质量的复杂推理逻辑,比仅仅扩大数据集规模更能提升模型的推理性能。
2: 为什么“数据重复”在 Long-CoT 训练中特别有效?
2: 为什么“数据重复”在 Long-CoT 训练中特别有效?
A: 这主要归因于长思维链任务的特殊性质——高难度和低熵。
与一般知识问答不同,Long-CoT 任务通常需要模型进行深度的多步推理。这种复杂的推理模式类似于学习高难度的数学或编程技能,属于“难学”的知识。对于这类知识,模型需要更多的训练步数来充分拟合和内化复杂的逻辑路径。
如果仅仅扩展数据规模(增加样本数量),模型在有限的总训练步数内,可能对每个复杂的推理逻辑都只是“浅尝辄止”,无法真正学会如何进行深度的链式思考。而通过重复数据,可以增加模型看到同一个复杂逻辑的次数,从而帮助模型更好地掌握这种推理模式。
3: 这一发现对大模型的数据配比策略有什么启示?
3: 这一发现对大模型的数据配比策略有什么启示?
A: 该发现对大模型训练的数据配比策略提出了重要的修正建议,特别是在构建混合数据集时。
传统的观点往往倾向于追求数据的多样性和规模,认为数据越多越好。但这篇论文表明,在处理需要深度推理的任务时,应该提高高质量推理数据的重复采样权重。
这意味着,在构建训练集时,不应仅仅因为数据集变大了就稀释掉那些高质量的 Long-CoT 样本的权重。相反,即使总数据量增加了,也应保持这些核心推理样本的高重复度,以确保模型有足够的“练习”机会来掌握复杂的推理技能。
4: 这一结论是否与“数据规模定律”相矛盾?
4: 这一结论是否与“数据规模定律”相矛盾?
A: 并不矛盾,而是对其进行了细化和补充。
传统的 Scaling Laws(规模定律)通常认为模型性能随着计算量和数据量的增加而提升。然而,这篇论文指出,这种 scaling 关系并非在所有情况下都是线性的或无条件的。
在 Long-CoT 这种特定的监督微调(SFT)阶段,当计算预算固定时,数据的质量和重复频率比单纯的规模更重要。这提示我们,在模型训练的后期或对特定能力(如推理)进行微调时,策略应从“追求数量”转向“追求质量和重复度”,以突破单纯依靠数据规模带来的性能瓶颈。
5: 论文中提到的“数据重复”是否存在过拟合的风险?
5: 论文中提到的“数据重复”是否存在过拟合的风险?
A: 这是一个合理的担忧,但论文的实验结果证明,在 Long-CoT 任务中,适度的重复并未导致明显的有害过拟合,反而带来了泛化能力的提升。
通常我们担心过拟合会导致模型只能回答训练集见过的题目,但在长思维链的训练中,重复学习让模型掌握的是通用的推理过程,而不仅仅是记忆答案。只要基础数据集具有一定的多样性,且重复的是高质量的推理逻辑,这种“过拟合”实际上是对复杂逻辑模式的深度学习,从而提升了模型在面对未见过的复杂问题时的解决能力。
6: 这里的“Long-CoT”具体指什么?它和普通的思维链有什么区别?
6: 这里的“Long-CoT”具体指什么?它和普通的思维链有什么区别?
A: Long-CoT(Long Chain-of-Thought)指的是长度较长、包含更多推理步骤的思维链。
普通的思维链可能只需要几步就能得出答案,而 Long-CoT 通常涉及深度的逻辑推演、数学证明或复杂的代码生成,其生成的 Token 数量远超一般指令。论文指出,随着输出序列长度的增加,模型学习的难度呈指数级上升,因此这种长序列推理任务对训练策略(特别是数据重复)的敏感度比普通短任务更高。
7: 基于这项研究,研究人员或开发者应该如何调整他们的 SFT 训练策略?
7: 基于这项研究,研究人员或开发者应该如何调整他们的 SFT 训练策略?
A: 建议采取以下调整策略:
- 精选数据: 在 Long-CoT 微调阶段,首要任务是筛选出逻辑严密、推理步骤完整的高质量数据。
- 增加 Epoch 数: 不要追求一次遍历海量数据,而是应该用较少的数据训练更多的 Epoch。
- 调整数据权重: 如果必须使用大规模的混合数据集进行训练,应该通过采样策略,人为提高 Long-CoT 数据的出现频率,确保模型在训练过程中能多次接触到这些复杂的推理样本。
思考题
## 挑战与思考题
### 挑战 1: 数据规模与质量的权衡
问题**:在传统的监督微调(SFT)实践中,研究人员通常倾向于尽可能增加训练数据的规模和多样性。然而,本文的核心论点指出,在长思维链任务中,重复较少的高质量数据优于扩展数据规模。请简述:为什么对于简单的问答或格式化任务,数据扩展通常有效,而在需要复杂推理的长上下文任务中,盲目扩充数据反而可能导致模型性能下降?
提示**:考虑模型在训练过程中的优化目标。当数据集中包含大量简单样本时,模型为了降低全局损失函数,往往会倾向于学习哪种“捷径”?这种捷径对需要深度推理的任务有何负面影响?
引用
注:文中事实性信息以以上引用为准;观点与推断为 AI Stack 的分析。