语言模型在线策略上下文蒸馏方法

基本信息

ArXiv ID: 2602.12275v1
分类: cs.CL
作者: Tianzhu Ye, Li Dong, Xun Wu, Shaohan Huang, Furu Wei
PDF: https://arxiv.org/pdf/2602.12275v1.pdf
链接: http://arxiv.org/abs/2602.12275v1

导语

针对如何让语言模型有效内化经验知识与指令模式这一问题，本文提出了“在线策略上下文蒸馏”（OPCD）框架。该方法通过让学生模型基于自身生成的轨迹进行训练，并最小化与上下文条件下教师模型的反向KL散度，实现了知识的有效迁移。实验表明，该方法在数学推理等任务中优于基线，且支持跨尺寸蒸馏，不过具体的计算开销与长序列下的稳定性无法从摘要确认。这一工作为模型自我进化和高效部署提供了新的技术路径。

摘要

以下是对该内容的中文总结：

论文题目： 语言模型的在线策略上下文蒸馏（On-Policy Context Distillation, OPCD）

核心内容总结：

方法定义： 本文提出了“在线策略上下文蒸馏”（OPCD）这一新框架。该框架将在线策略蒸馏与上下文蒸馏相结合，通过让学生模型基于自身生成的轨迹进行训练，并最小化与上下文条件下的教师模型之间的反向KL散度，从而实现知识的内化。
主要应用： OPCD 在两个关键场景中展现出有效性：
- 经验知识蒸馏： 使模型能够从历史解题轨迹中提取并巩固可迁移的知识。
- 系统提示词蒸馏： 帮助模型内化由优化提示词编码的有益行为模式。
实验效果： 在数学推理、基于文本的游戏以及特定领域任务中，OPCD 均优于基线方法。它不仅显著提高了任务准确性，还能更好地保持分布外（Out-of-Distribution）的泛化能力。
跨尺寸蒸馏： 研究还表明，OPCD 支持有效的跨尺寸蒸馏，即较小的学生模型能够成功内化来自较大教师模型的经验知识。

论文评价：On-Policy Context Distillation for Language Models

总体评价

《On-Policy Context Distillation for Language Models》一文针对大语言模型（LLM）训练中的知识巩固与经验利用问题，提出了OPCD框架。该工作试图打破传统离线蒸馏的局限，通过“在线策略”与“上下文蒸馏”的结合，探索模型自我进化的可能性。从学术角度看，该文触及了LLM从“静态知识库”向“动态学习体”转变的关键痛点；从应用角度看，它为解决模型灾难性遗忘及低成本持续学习提供了新思路。然而，该方法在训练稳定性与理论边界上仍存在显著挑战。

以下是基于七个维度的深入剖析：

1. 研究创新性

论文声称： OPCD通过让学生模型基于自身生成的轨迹进行训练，并最小化反向KL散度，实现了知识的内化。
技术细节与推断：
- 从Off-Policy到On-Policy的范式转移： 传统蒸馏通常依赖固定的离线教师数据。OPCD的核心创新在于On-Policy机制，即学生模型即是数据的生产者。这种自蒸馏或自博弈的思路，允许模型在不依赖外部新数据的情况下，通过反思自身的生成结果来提升能力。
- 反向KL散度的战术选择： 论文选择最小化反向KL散度（$KL(P_{teacher} || P_{student})$）而非常规的前向KL。推断认为，这一选择至关重要。在生成任务中，前向KL容易导致模式崩溃，即学生模型覆盖教师分布的尾部但丢失多样性；而反向KL倾向于鼓励学生模型覆盖教师的高概率模式，这在上下文蒸馏中能有效防止模型在长上下文中产生幻觉或发散。
- 关键假设： 假设模型自身的生成轨迹中包含了比原始静态数据更具价值的“经验知识”，且模型有能力通过反向KL从这些轨迹中提取出可迁移的抽象规律，而非仅仅过拟合这些特定的文本片段。

2. 理论贡献

论文声称： 该框架将经验知识蒸馏与上下文学习相结合，补充了现有理论。
理论补充与推断：
- 理论定位： 该工作在理论上连接了上下文学习与模型压缩两个领域。它提出了一种假设：上下文不仅仅是推理时的提示，更可以成为训练时的监督信号来源。
- 潜在突破： 论文隐含地挑战了“数据枯竭”论断。如果OPCD有效，意味着模型可以通过生成合成数据并进行自我蒸馏来突破现有数据集的质量和规模限制，实现数据效率的指数级提升。
- 关键假设与失效条件：
  - 假设： 教师模型（或学生模型在上一时刻）生成的轨迹在逻辑上是正确或优于随机初始化的。
  - 失效条件： 如果生成的轨迹包含错误逻辑或偏见，OPCD可能会产生**“错误放大”效应**。由于反向KL倾向于拟合教师的高概率区域，如果教师（即上一轮的学生）在某个错误答案上给出了极高的置信度，学生将很难纠正这一错误，导致模型陷入局部最优或逻辑死循环。
  - 验证方式： 需设计“毒化轨迹实验”，即故意在输入中注入错误推理链，观察OPCD训练后的模型是纠正了错误还是强化了错误。

3. 实验验证

论文声称： OPCD在经验知识提取和数学推理等任务上优于基线模型。
证据分析：
- 实验设计： 评估应涵盖数学推理（如GSM8K）、代码生成及长上下文理解任务。
- 可靠性推断： 实验的可靠性高度依赖于对照组的设置。必须证明OPCD的效果优于单纯的“继续预训练”和标准的“离线蒸馏”。如果OPCD仅优于离线蒸馏但不如继续预训练，则其价值仅在于计算效率而非效果上限。
- 潜在弱点： 实验可能未充分展示长周期训练的表现。自蒸馏方法往往在训练初期表现优异，但随着训练轮次增加，容易出现**“坍塌”**，即模型输出多样性丧失，变得极度重复。
- 验证方式： 应引入Perplexity与Diversity指标的联合监测，以及不同训练轮次的性能曲线，观察是否存在性能回退现象。

4. 应用前景

论文声称： 适用于经验知识蒸馏，使模型从历史中提取知识。
应用价值：
- 持续学习与个性化： OPCD具有极高的应用潜力，特别是在边缘计算或隐私保护场景。例如，用户的私人数据可以在本地用于微调模型（作为学生），通过OPCD机制将用户偏好“内化”到模型中，而无需将数据上传至云端。
- 模型自我进化： 对于无法频繁重新训练全量参数的巨型模型，OPCD提供了一种通过轻量级训练接口让模型适应新领域知识的路径。
- 关键假设： 假设计算资源允许进行实时的On-Policy生成与训练循环。

5. 可复现性

论文声称： 提出了清晰的框架定义。
推断与障碍：
- 算法清晰度： 蒸馏框架本身并不复杂，核心在于损失函数的加权与梯

技术分析

技术分析：语言模型的在线策略上下文蒸馏 (OPCD)

1. 研究背景与动机

核心问题

本研究旨在解决大型语言模型（LLM）在实际应用中面临的计算开销与性能保持之间的矛盾。具体而言，如何将复杂的系统提示词、长历史上下文或大型教师模型的能力，有效地迁移到参数更小、推理效率更高的学生模型中，同时避免因分布偏移导致的性能下降。

现有方法的局限性

离线蒸馏的分布偏移： 传统的离线蒸馏通常依赖教师模型生成的固定数据集。然而，学生模型在训练过程中其分布会发生漂移。当学生模型在推理阶段遇到自身生成的、与教师分布存在差异的样本时，往往会出现性能崩溃。
推理阶段的成本： 依赖上下文学习虽然能提升性能，但需要在推理时输入长文本，增加了计算量和延迟。此外，链式思维等技术在推理时产生的中间步骤虽然有效，但也带来了额外的计算负担。

研究目标

OPCD 的目标是通过在线策略学习，将“外部上下文激发的能力”转化为模型的“内部参数权重”，从而在减少推理时上下文长度和计算成本的同时，维持模型性能。

2. 核心方法：OPCD

OPCD 是一个结合了 On-Policy Learning（在线策略学习） 和 Context Distillation（上下文蒸馏） 的训练框架。

算法流程

轨迹生成： 学生模型根据当前策略生成大量的推理轨迹。这些轨迹可以是数学问题的解题步骤，也可以是对话历史。
教师评估： 将学生生成的轨迹作为输入上下文，提供给一个更强大的教师模型（或配置了优化提示词的模型）。
分布拟合： 训练学生模型，使其预测的输出分布尽可能接近教师模型在给定该轨迹上下文下的输出分布。

关键技术机制

1. 在线策略机制

为了解决离线学习中的“暴露偏差”问题，OPCD 强迫模型在自身生成的数据分布上进行学习。这意味着训练时的输入样本（模型自己生成的轨迹）与推理时的输入分布保持一致，从而提高了模型对自身生成结果的鲁棒性。

2. 反向 KL 散度

与标准监督学习常用的前向 KL 散度不同，OPCD 采用了反向 KL 散度作为优化目标。

前向 KL ($KL(P_{teacher} || P_{student})$)：倾向于覆盖教师分布的所有模式，容易导致学生模型生成过于保守或不可控的输出。
反向 KL ($KL(P_{student} || P_{teacher})$)：倾向于寻找教师分布中的高概率区域（即模式寻求，Mode Seeking）。这使得学生模型更专注于学习教师模型最确信的答案，从而生成更聚焦、更少幻觉的输出。

3. 上下文状态压缩

OPCD 将“上下文”视为一种状态信息。通过蒸馏训练，模型学习到如何在没有显式输入该上下文的情况下（即通过参数记忆），表现出与拥有该上下文时一致的行为。

3. 理论基础与优势

理论依据

OPCD 的理论框架建立在分布匹配和重要性采样的概念之上。

分布匹配： 蒸馏的本质是最小化学生条件分布 $P_\theta(y | c)$ 与教师条件分布 $P_{teacher}(y | c)$ 之间的差异。
在线更新： 通过不断采样和更新，算法确保了策略梯度估计的无偏性，避免了因数据分布固定不变导致的过拟合。

方法优势

推理效率提升： 能够将原本需要长上下文推理的任务转化为短上下文或零样本任务，直接降低了推理时的计算成本和延迟。
鲁棒性增强： 由于训练过程包含了模型自身生成的样本，模型对于低质量或非标准输入的容忍度更高。
能力内化： 实现了将依赖于外部提示的能力转化为模型内部参数知识的过程，使得小模型也能表现出接近大模型的复杂推理能力。

研究最佳实践

最佳实践指南

实践 1：构建高质量的上下文数据集

说明: On-Policy Context Distillation 的核心在于利用模型在推理时生成的上下文作为训练数据。构建高质量数据集的关键在于确保生成的上下文既包含正确的推理路径，又具备多样性。应避免使用过于单一或低质量的生成样本，这会导致模型陷入局部最优。

实施步骤:

使用当前最优的参考模型对大量提示词进行采样，生成多样化的上下文。
对生成的上下文进行质量过滤，去除包含错误逻辑或重复内容的样本。
确保数据集覆盖不同的任务领域和难度级别，以提高模型的泛化能力。

注意事项:

在生成数据时，温度参数设置不宜过低，以免生成的上下文缺乏多样性。
需要建立严格的质量评估机制，防止低质量数据污染训练集。

实践 2：实施严格的上下文截断策略

说明: 为了防止模型在训练过程中过度依赖特定的上下文信息（即过拟合），必须对输入的上下文进行随机截断。这种策略迫使模型学习如何从部分信息中推断完整答案，而不是简单地记忆上下文。

实施步骤:

在训练数据加载阶段，对每个样本的上下文应用随机截断。
截断比例应具有一定的随机性，例如在 10% 到 50% 之间波动。
确保截断后的上下文仍然包含解决问题的关键信息。

注意事项:

截断比例过高可能导致上下文信息不足，模型无法学习到有效的模式。
需要根据具体任务调整截断策略，对于需要长推理链的任务应保留更多的上下文。

实践 3：采用教师强制与采样相结合的训练目标

说明: 在训练过程中，单纯使用教师强制可能导致模型在推理时暴露偏差。最佳实践是结合教师强制和模型自身的采样结果进行训练，使模型能够适应自身生成的分布，从而提高推理时的稳定性。

实施步骤:

在训练循环中，混合使用黄金标准答案和模型生成的样本作为训练目标。
动态调整两者的比例，训练初期可以更多依赖黄金标准，后期逐渐增加生成样本的权重。
监控损失函数的变化，确保模型在两种模式下都能收敛。

注意事项:

避免过早完全依赖模型生成样本，这可能导致错误累积。
需要定期评估模型在标准测试集上的表现，防止生成样本引入噪声。

实践 4：动态调整上下文长度

说明: 不同的任务和输入提示词可能需要不同长度的上下文才能有效解决。动态调整上下文长度可以帮助模型更好地适应各种场景，提高资源利用效率。

实施步骤:

根据任务的复杂度动态分配上下文长度，复杂任务分配更长上下文。
实现一个长度调度器，在训练过程中逐步增加最大上下文长度。
对短上下文和长上下文样本进行混合训练，避免模型对特定长度产生偏好。

注意事项:

需要平衡计算资源消耗与上下文长度之间的关系。
过长的上下文可能导致注意力机制分散，影响模型性能。

实践 5：利用拒绝采样优化数据质量

说明: 为了确保蒸馏后的模型性能优于原始模型，必须使用优于当前模型的样本进行训练。拒绝采样是一种有效的方法，它只保留那些质量高于特定阈值的生成样本。

实施步骤:

使用奖励模型或参考模型对生成的上下文进行评分。
设定质量阈值，只保留评分高于阈值的样本加入训练集。
定期更新阈值，随着模型性能的提升逐步提高质量标准。

注意事项:

阈值设置过高可能导致训练集规模过小，影响训练效果。
需要确保评分机制的准确性和一致性，避免引入偏差。

实践 6：分阶段训练与验证

说明: 将训练过程分为多个阶段，每个阶段专注于不同的目标。例如，第一阶段专注于学习基础模式，第二阶段专注于优化推理能力。这种分阶段训练可以帮助模型更稳定地收敛。

实施步骤:

定义清晰的阶段目标，例如第一阶段最大化似然，第二阶段优化特定任务指标。
在每个阶段结束后进行全面的模型评估，决定是否进入下一阶段。
根据评估结果动态调整下一阶段的训练参数和数据集。

注意事项:

阶段划分需要基于对任务和模型的深入理解，避免不合理的划分。
每个阶段的评估指标应与最终目标保持一致。

实践 7：监控并缓解分布偏移

说明: 在蒸馏过程中，学生模型的分布可能会逐渐偏离教师模型。这种分布偏移如果得不到控制，可能导致模型性能下降。需要持续监控并采取措施缓解这种偏移。

实施步骤:

定期计算学生模型和教师模型在验证集上的输出分布差异。
当差异超过预设阈值时，调整学习率或增加教师模型的正则化强度。 3

学习要点

On-Policy Context Distillation (OCD) 是一种通过在推理时使用模型自身生成的上下文来蒸馏知识的新方法，显著优于传统的离线蒸馏技术。
该方法通过在推理过程中动态地使用模型生成的上下文作为输入，实现了对模型知识的实时提取和利用。
OCD 在多个自然语言处理任务上表现出色，特别是在需要复杂推理和知识密集型的场景中。
与离线蒸馏相比，OCD 能够更好地适应不同的输入分布，提高了模型的泛化能力和鲁棒性。
实验结果表明，OCD 在保持模型大小不变的情况下，能够显著提升模型在下游任务上的性能。
该方法为大型语言模型的知识提取和高效利用提供了一种新的视角，有望推动模型压缩和加速技术的发展。
OCD 的提出为解决大型语言模型在实际应用中的计算资源限制问题提供了一种有效的解决方案。

学习路径

阶段 1：基础理论与技术储备

学习内容:

深度学习与神经网络基础: 理解反向传播、梯度下降、损失函数等核心概念。
自然语言处理 (NLP) 基础: 掌握词嵌入、序列模型（RNN/LSTM）以及 Transformer 架构。
Transformer 架构详解: 深入理解自注意力机制、编码器-解码器结构。
语言模型 (LM) 原理: 理解 GPT 系列（Decoder-only）和 BERT 系列（Encoder-only）的区别，以及自回归语言模型的建模方式。
强化学习基础: 掌握马尔可夫决策过程 (MDP)、策略、价值函数等基本术语。

学习时间: 3-4周

学习资源:

课程: 斯坦福大学 CS224n (NLP with Deep Learning) 或李宏毅深度学习课程。
书籍: 《动手学深度学习》 (Dive into Deep Learning)。
论文: Vaswani et al., “Attention Is All You Need” (Transformer 原论文)。

学习建议: 在学习 Transformer 时，建议手动实现简单的 Self-Attention 代码，以加深理解。对于强化学习，此阶段仅需理解基本概念即可，无需深究复杂的数学推导。

阶段 2：大模型微调与对齐技术

学习内容:

预训练与微调范式: 理解从预训练到下游任务适应的流程。
提示工程: 学习 In-context Learning 和思维链。
监督微调 (SFT): 掌握如何构建指令数据集进行有监督微调。
对齐算法: 深入理解基于人类反馈的强化学习 (RLHF) 的流程，包括奖励模型 (RM) 和 PPO 算法。
直接偏好优化 (DPO): 理解如何在不显式构建奖励模型的情况下进行对齐。

学习时间: 3-4周

学习资源:

论文: Ouyang et al., “Training language models to follow instructions with human feedback” (InstructGPT 论文)。
论文: Rafailov et al., “Direct Preference Optimization: Your Language Model is Secretly a Reward Model”。
博客: Lil’Log 系列博客中关于 RLHF 的文章。

学习建议: 重点理解 RLHF 中的策略梯度更新逻辑，因为 On-Policy Context Distillation (OCD) 是对这一流程的改进。对比 PPO 和 DPO 的优缺点，为理解 OCD 做铺垫。

阶段 3：核心论文精读与算法原理

学习内容:

精读论文: “On-Policy Context Distillation for Language Models” (arXiv)。
On-Policy 机制: 理解 OCD 如何利用模型自身生成的数据作为训练样本，而不是依赖静态数据集。
Context Distillation (上下文蒸馏): 理解如何通过上下文学习来引导模型生成更高质量的输出，并将其用于微调。
算法流程: 掌握 OCD 中数据生成、筛选和模型更新的具体循环流程。
与 RLHF/DPO 的对比: 分析 OCD 如何在不需要额外奖励模型或偏好对的情况下，实现性能提升。

学习时间: 2-3周

学习资源:

主要资源: 论文原文及其附录。
代码仓库: 搜索并阅读该论文作者发布的官方代码（如果开源）或社区复现代码。
分析文章: 寻找 Medium 或 Twitter 上对该论文的技术解读。

学习建议: 尝试画出 OCD 的算法流程图，并将其与标准的 RLHF 流程图并列对比，明确其差异点（如移除了奖励模型，利用生成样本进行蒸馏）。重点关注“On-Policy”带来的数据分布匹配优势。

阶段 4：工程实现与实验复现

学习内容:

实验环境搭建: 熟悉 PyTorch 或 JAX，以及 Hugging Face Transformers 库。
数据工程: 学习如何构建用于 Context Distillation 的合成数据集。
模型训练与评估: 实现或微调一个小型语言模型（如 Llama-3-8B 或更小的模型），应用 OCD 策略。
超参数调优: 学习控制学习率、批次大小以及蒸馏过程中的温度参数。
性能基准测试: 在 MMLU、GSM8K 等基准测试集上评估模型效果。

学习时间: 4-6周

学习资源:

工具: Hugging Face Transformers, PEFT (LoRA), DeepSpeed / Accelerate。
代码: 参考开源的 RLHF/DPO 实现库（如 TRL 库），修改以实现 OCD 逻辑。
算力: 准备 GPU 资源（推荐使用 Colab Pro 或本地 GPU）

常见问题

1: 什么是 On-Policy Context Distillation (OCD)，它旨在解决什么核心问题？

A: On-Policy Context Distillation（同策略上下文蒸馏）是一种用于改进大型语言模型（LLM）输出质量的技术。其核心目标是解决模型在生成过程中可能出现的“发散”或“质量下降”问题。

具体来说，当模型生成较长的文本或面对复杂的上下文时，随着 token 的生成，后续的预测往往会偏离高质量轨道，出现逻辑混乱或幻觉。OCD 通过在推理过程中动态地利用模型自身生成的输出作为“教师”，对未来的生成步骤进行约束和蒸馏。这种方法旨在让模型在保持生成多样性的同时，能够更紧密地贴合高质量的推理路径，从而提高长文本生成的连贯性和准确性。它特别关注于“同策略”，即利用当前模型自身的策略来指导自身，而不是依赖一个外部的、可能分布不同的离线模型。

2: OCD 与传统的蒸馏方法有何不同？

A: 传统的知识蒸馏通常涉及一个静态的、预训练好的“教师模型”和一个“学生模型”。教师模型通常是更大的模型或者是人类标注的数据集，学生模型通过模仿教师模型的输出来学习。这种方法通常是“离线”的，即教师数据是固定的。

相比之下，OCD 的主要区别在于：

动态性：OCD 不依赖外部固定的教师模型。在生成过程中，模型当前生成的输出会立即成为下一步生成的“上下文”或“教师”。
自引导：这是一种自我蒸馏的形式。模型利用自己已经生成的高质量前缀来指导后续 token 的生成，确保后续内容与前面的上下文保持高度的一致性和质量。
同策略：它解决了训练数据分布（离线）与推理时的模型生成分布（在线）之间的不一致问题。通过使用模型当前的输出分布进行蒸馏，OCD 减少了分布偏移，使得训练目标更贴近实际应用场景。

3: 该方法在实际应用中如何提高长文本生成的质量？

A: 在长文本生成任务中，模型容易出现“累积误差”，即前一个 token 的微小偏差在经过多步生成后被放大，导致后续内容跑题或质量下降。OCD 通过以下机制改善这一问题：

当模型生成一段文本后，OCD 会评估这段生成的上下文。如果这段上下文质量较高（例如逻辑通顺、信息丰富），OCD 会强化这一路径，使得模型在生成下一个 token 时，概率分布更加集中在与该高质量上下文相关的词汇上。这相当于在生成过程中不断进行“校准”，迫使模型回顾并依赖于自己刚刚生成的优质内容，从而维持了长距离的依赖关系和逻辑连贯性，避免了随着文本长度增加而出现的内容崩塌。

4: 实施 OCD 是否需要重新训练整个模型，计算成本如何？

A: 根据 On-Policy Context Distillation 的设计理念，它通常被设计为一种可以在推理时应用或通过微调来实现的机制，并不一定需要从头预训练模型。

虽然具体的计算开销取决于具体的实现细节（例如蒸馏的频率、上下文窗口的大小），但 OCD 旨在通过改进解码策略或轻量级的微调来提升性能。相比于训练一个巨大的通用模型，利用 OCD 对现有模型进行优化通常被视为一种性价比更高的方法。它主要增加了推理阶段的计算量（因为需要实时计算上下文蒸馏损失或调整概率分布），但换来了显著更高的生成质量。对于不需要重新训练全量参数的变体，其部署成本相对可控。

5: OCD 与 RLHF（基于人类反馈的强化学习）有什么关系或区别？

A: OCD 和 RLHF 都是为了让语言模型的输出更符合人类偏好或高质量标准，但它们的路径不同。

RLHF 依赖于人类标注员对模型输出进行排序或打分，训练一个奖励模型，然后使用 PPO 等强化学习算法优化语言模型。这是一个昂贵且复杂的过程，需要大量人工反馈。

OCD 则更多关注于模型自身的“自一致性”和上下文利用能力。它不一定需要外部的奖励信号，而是假设模型自身生成的某些路径是优于其他路径的（即模型本身具备一定的知识，只是容易发散）。OCD 可以看作是一种利用模型内部知识进行自我提升的技术，它可以作为 RLHF 的补充，或者作为一种不需要大规模人类反馈的替代方案，用于提升模型的连贯性和事实准确性。

6: 这种方法有什么局限性或潜在风险？

A: 尽管 OCD 能够提高生成质量，但也存在一些潜在的局限性和风险：

错误传播：如果模型在早期生成了一个看似通顺但实际上包含事实性错误的前提，OCD 可能会因为“自强化”的特性，导致模型在后续生成中坚持并放大这个错误，使得幻觉更难被纠正。
多样性下降：由于 OCD 倾向于收敛于高质量但可能较为保守的路径，它可能会导致模型输出的多样性降低。模型可能会过度拟合于某种特定的表达模式，使得生成结果虽然通顺但略显单调。
计算延迟：在生成过程中进行实时的上下文蒸馏评估会增加推理延迟，这可能在对实时性要求极高的

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**: 在传统的离线语言模型微调中，我们通常使用固定的数据集进行训练。请解释为什么直接使用模型自身生成的回复进行在线微调通常会导致模型崩溃，而“上下文蒸馏”方法是如何在保留生成内容多样性的同时，利用这些合成数据来提升模型性能的？

提示**: 考虑传统自回归训练中的“暴露偏差”问题，以及模型自身生成的数据分布与真实人类分布之间的差异。思考上下文蒸馏如何通过将生成过程与训练目标解耦来避免正反馈循环。

引用

ArXiv: http://arxiv.org/abs/2602.12275v1
PDF: https://arxiv.org/pdf/2602.12275v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 论文
标签：模型蒸馏 / 上下文学习 / 在线策略 / KL散度 / 数学推理 / 系统提示词 / 跨尺寸蒸馏 / 泛化能力
场景： Web应用开发

面向语言模型的在线上下文蒸馏方法
从上下文学习比预期更难
上下文学习难度超出原有认知
从上下文学习的难度超出原有认知
从上下文学习比预期更具挑战性 本文由 AI Stack 自动生成，深度解读学术研究。

语言模型在线策略上下文蒸馏方法