循环Transformer的步级数据归因方法

基本信息

ArXiv ID: 2602.10097v1
分类: cs.LG
作者: Georgios Kaissis, David Mildenberger, Juan Felipe Gomez, Martin J. Menten, Eleni Triantafillou
PDF: https://arxiv.org/pdf/2602.10097v1.pdf
链接: http://arxiv.org/abs/2602.10097v1

摘要

以下是对该内容的简洁总结：

本文研究了训练样本如何影响循环Transformer的内部计算，这类模型通过共享模块进行τ次循环迭代以实现潜在的推理能力。

针对现有数据影响评估方法（如TracIn）仅能产生一个聚合所有循环步骤的标量分数，从而掩盖了样本在具体推理步骤中作用机制的缺陷，作者提出了一种名为步骤分解影响（SDI）的新方法。SDI通过展开循环计算图，将TracIn分解为长度为τ的影响轨迹，从而能够将具体的影响归因于特定的循环迭代步骤。

为了使SDI在Transformer规模下切实可行，作者提出了一种TensorSketch实现方案，该方案无需具体计算每个样本的梯度。在类GPT循环模型和算法推理任务上的实验表明，SDI具有极佳的扩展性，能够以低误差匹配全梯度基线，并为数据归因和模型可解释性任务提供关于潜在推理过程的分步骤洞察。

常见问题

1: 什么是 “Step-resolved data attribution”（逐步解析的数据归因），它与传统的数据归因方法有何不同？

A: 传统数据归因通常将模型的整体性能或特定行为归因于训练数据集，往往将训练过程视为一个黑盒，只关注最终的训练状态。而 “Step-resolved data attribution” 是一种更细粒度的分析方法，它关注模型在训练过程中的每一个时间步。

这种方法的核心在于揭示训练数据样本在模型训练的具体哪个阶段起到了作用。例如，它可以区分哪些数据样本有助于模型在训练初期快速收敛，哪些样本有助于在训练后期提升泛化能力，或者哪些样本导致了模型在特定步骤的遗忘或性能波动。这对于理解 Transformer 的动态学习过程（特别是循环 Transformer）至关重要。

2: 什么是 Looped Transformers（循环 Transformer），为什么需要专门针对它研究数据归因？

A: Looped Transformers 是指在推理过程中重复使用同一组 Transformer 层多次的模型架构。与传统的深度 Transformer（每一层只使用一次）不同，Looped Transformers 通过在固定参数上迭代更多次来增加计算深度，这通常被视为一种提高推理效率或模拟递归计算的方法。

针对这种架构研究数据归因非常重要，因为：

动态行为：模型在循环迭代中的表现会随着步数变化，数据对模型在第 1 步和第 10 步的影响可能截然不同。
训练与推理的鸿沟：这种模型在训练时可能只展开少量步数，但在推理时展开更多步数。传统的归因方法难以捕捉这种跨步数的知识迁移和特征形成过程。
记忆与泛化：研究者需要了解数据是如何支撑模型在多次循环中保持记忆而不发生崩溃的。

3: 这类研究通常使用什么技术指标来衡量数据样本的价值？

A: 在此类研究中，通常使用基于影响函数或梯度的指标来量化数据样本的价值。常见的技术手段包括：

梯度相似度：计算特定训练样本的梯度与验证集损失梯度的相似度。如果相似度高，说明该训练样本对解决验证任务有积极推动作用。
TracIn：一种经典的归因方法，通过追踪训练样本在训练过程中对模型参数更新的影响，来计算其对最终测试结果的贡献。
Step-wise Influence（逐步影响）：在本文的语境下，特指计算在训练循环的特定迭代步骤 $t$ 时，某个数据样本对模型在后续推理步骤 $t+k$ 性能的具体贡献度。

4: 这项研究对于实际的大模型训练和数据处理有什么指导意义？

A: 这项研究的发现对于优化 LLM 的训练流程具有实际指导意义：

数据筛选与课程学习：如果发现某些数据只在特定训练阶段（如早期或中期）有效，可以设计动态的课程学习策略，在合适的时间投入合适的数据，而不是从头到尾混在一起训练。
去除有害数据：通过逐步归因，可以识别出那些导致模型在训练后期性能下降（遗忘）或产生负面副作用的数据点，并进行精确过滤。
理解遗忘现象：大模型训练中常遇到“灾难性遗忘”，逐步解析的归因可以帮助诊断是哪些后续数据覆盖了先前的知识。

5: 在计算逐步解析的数据归因时，主要的计算挑战是什么？

A: 主要的计算挑战在于计算开销和存储成本。

状态追踪：为了归因于每一个步骤，需要保存模型在训练过程中每一个检查点的状态（参数、梯度等）。对于大规模模型，完整存储所有中间状态是不可行的。
二次方复杂度：理论上，计算所有训练样本对所有测试样本在所有步骤上的影响，计算复杂度是数据量和步数的乘积级别。
近似方法的需求：因此，研究者通常需要开发高效的线性时间算法，或者利用诸如随机投影、低秩近似等技术来估算这些影响值，而不是进行精确的全量计算。

6: 循环 Transformer 的数据归因结果是否适用于标准 Transformer？

A: 虽然两者底层架构都是 Transformer，但归因结果的解释机制存在差异。

通用性：关于“哪些数据重要”的统计规律（例如高质量数据总是更好）在两者之间通常是通用的。
差异性：Looped Transformer 的归因结果会显示出时间上的依赖性。在标准 Transformer 中，第 $N$ 层的数据影响主要取决于该层的权重；而在 Looped Transformer 中，第 $k$ 次循环的影响是前一次循环状态的累积函数。因此，Looped Transformer 的归因更侧重于分析数据如何支持模型的迭代收敛和稳定性，而标准 Transformer 的归因更侧重于层间的特征提取。

7: 论文中提到的 “Attribution across steps”（跨步归因）主要想解决什么问题？

A: "

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**: 在论文中，作者提出了一种“逐步解析”的方法来归因循环 Transformer 的输出。请解释为什么传统的针对非循环模型的归因方法（如简单的梯度计算或一次性的 Influence 函数）在处理循环模型时会失效或产生误导性的结果？

提示**: 考虑循环 Transformer 在处理序列时，Token 之间存在的递归依赖关系，以及权重在不同时间步之间的共享机制。思考“时间纠缠”和“状态重用”对因果归因的影响。

引用

ArXiv: http://arxiv.org/abs/2602.10097v1
PDF: https://arxiv.org/pdf/2602.10097v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：大模型 / 论文
标签： Transformer / 数据归因 / 模型可解释性 / TracIn / TensorSketch / 循环神经网络 / 梯度估算 / 推理机制
场景： Web应用开发

混合线性注意力新架构：高效蒸馏与极长上下文处理
PatchFormer：基于分层掩码重建的零样本多步预测时序基础模型
混合线性注意力新架构：高效蒸馏与超长上下文建模
混合线性注意力新架构：高效蒸馏与超长上下文处理
混合线性注意力新架构：高效蒸馏与超长上下文处理 本文由 AI Stack 自动生成，深度解读学术研究。

AI Stack

循环Transformer的步级数据归因方法