知识蒸馏

条目：7

2026年二月 6 篇

类型	阅读	条目
[自动] [ARXIV]	4min	school 数据集压缩至1MB：模型训练效率优化方法 02-28 数据集蒸馏 PLADA 模型训练
[自动] [ARXIV]	4min	school 基于奖励外推的广义在线策略蒸馏算法 02-13 LLM 强化学习知识蒸馏
[自动] [ARXIV]	2min	school ArcFlow：高精度非线性流蒸馏实现两步文生图生成 02-10 ArcFlow 文生图流蒸馏
[自动] [ARXIV]	4min	school 强化注意力学习：通过奖励机制优化视觉注意力模型 02-06 强化学习多模态注意力机制
[自动] [ARXIV]	6min	school 混合线性注意力新架构：高效蒸馏与超长上下文处理 02-02 HALO HypeNet 混合架构
[自动] [ARXIV]	5min	school 混合线性注意力新架构：高效蒸馏与超长上下文处理 02-01 Transformer 混合架构线性注意力

2026年一月 1 篇

类型	阅读	条目
[自动] [ARXIV]	5min	school 混合线性注意力新架构：高效蒸馏与超长上下文建模 01-31 线性注意力长上下文混合架构