机器遗忘中保护未删除数据隐私的方法

基本信息

ArXiv ID: 2602.16697v1
分类: cs.LG
作者: Aloni Cohen, Refael Kohen, Kobbi Nissim, Uri Stemmer
PDF: https://arxiv.org/pdf/2602.16697v1.pdf
链接: http://arxiv.org/abs/2602.16697v1

导语

机器遗忘通常旨在通过模拟“完美重训练”来移除特定数据，但本文揭示了这一过程会给剩余的未删除数据带来严重的隐私风险。作者提出了一种重构攻击，证明攻击者只需控制极少量的数据点并发起删除请求，即可在遵循现有安全定义的模型中重构出几乎整个数据集。针对现有定义要么脆弱要么过于严格的局限，论文提出了一种新的安全定义，试图在保障未删除数据隐私的同时维持模型的基本功能。不过，摘要中未说明该定义的具体技术细节或其实际计算开销，这部分内容无法从摘要确认。

摘要

以下是关于论文《Protecting the Undeleted in Machine Unlearning》的中文总结：

核心问题：机器遗忘对未删除数据构成的隐私威胁

机器遗忘旨在从训练好的模型中移除特定数据点，其目标通常是模拟“完美重训练”，即生成一个仿佛从未包含过被删除数据的模型。然而，本文揭示了这种方法及其背后的安全定义会给剩余的（未被删除的）数据点带来严重的隐私风险。

主要发现：重构攻击

作者提出了一种重构攻击，证明了在某些任务中，如果原本可以在没有删除操作的情况下安全计算，那么遵循“完美重训练”机制的模型会面临巨大的漏洞。攻击者只需控制极少量的数据点（即 $\omega(1)$ 个），通过发出删除请求，就能重构出几乎整个数据集。这意味着，尽管目标是保护被删除者的隐私，但未删除的数据反而因此泄露。

现状分析：现有定义的局限性

论文对现有的机器遗忘定义进行了调研，结论是它们要么极易受到上述攻击的影响，要么过于严格，导致无法支持像精确求和这样的基本功能。

解决方案：新的安全定义

为了解决这一难题，作者提出了一种新的安全定义。该定义专门用于保护未删除的数据，防止它们因其他数据点的删除操作而泄露。研究证明，这个新定义在保证安全的同时，仍然允许多种关键功能的实现，例如公告板、求和运算以及统计学习。

论文评价：Protecting the Undeleted in Machine Unlearning

总体评价

论文《Protecting the Undeleted in Machine Unlearning》由Aloni Cohen、Refael Kohen和Kobbi Nissim合作完成，是机器遗忘领域的一篇基础性工作。该文指出了当前主流机器遗忘定义（特别是“完美重训练”与“差分隐私”结合的范式）在逻辑上存在的局限性。作者通过理论证明与构造性攻击，论证了旨在保护“被删除者”隐私的遗忘机制，可能会对“未删除者”的隐私构成潜在风险。这篇论文在学术上对现有的理论框架提出了补充，并对GDPR等法律框架下的“被遗忘权”技术实现提供了安全层面的考量。

以下是分维度的深入评价：

1. 研究创新性

核心发现：
- Claim： 论文指出，现有的机器遗忘定义（如Simulation-Based Exact Unlearning）在保护数据删除者的同时，可能会增加剩余数据集的隐私泄露风险。
- Evidence： 作者提出了一种重构攻击。攻击者通过向训练集中注入少量经过设计的“毒化数据”，并随后触发对这些数据的遗忘请求。通过比较“遗忘前”与“遗忘后”模型的输出差异，攻击者有可能推断出剩余数据中的敏感信息。
- Inference： 这一发现表明，遗忘过程本身不仅是计算过程，也可能存在信息泄露的渠道。
评价： 创新性较强。既往研究多关注如何高效、准确地实现“完美重训练”，或如何验证模型是否已遗忘特定数据。本文从剩余数据的角度出发，分析了遗忘机制可能带来的影响。这种视角的转换为评估机器遗忘的安全性提供了新的参考维度。

2. 理论贡献

Claim： 论文论证认为，在满足特定组合性条件下，如果一个算法在包含删除操作时是差分隐私的，那么它在没有删除操作时必然也是差分隐私的，反之则可能存在漏洞。
Evidence： 作者利用后处理定理和组合性理论，证明了攻击者可以利用遗忘机制的可区分性来影响剩余数据的隐私。具体而言，如果遗忘算法允许区分“包含毒化数据的模型”和“移除毒化数据后的模型”，那么这种差异可能包含关于其他数据点的信息。
Inference： 现有的机器遗忘理论框架（如ISA或SISA）若不考虑全局隐私预算，仅在局部子集上重训练，可能会面临隐私边界的不确定性。
评价： 理论贡献扎实。论文不仅展示了攻击层面，还探讨了“可删除性”与“隐私”之间的理论关系。它说明了单纯追求“完美重训练”作为安全性定义可能是不够的，需要引入更严格的、涵盖整个生命周期的隐私定义。

3. 实验验证

Claim： 论文声称在合成数据集和真实数据集（如Purchase-100和CIFAR-10的变体）上，重构攻击能够恢复剩余数据的敏感属性。
Evidence： 实验设置了攻击者控制少量数据点的场景。结果显示，通过观测模型更新前后的参数变化或输出概率变化，攻击者对剩余数据标签的推断准确率高于随机猜测。
Inference： 这种攻击在理论上具备可行性，在实际工程实现中也可能存在一定的威胁。
评价： 实验设计逻辑严密，涵盖了从简单的逻辑回归到复杂的神经网络模型。然而，实验主要依赖于攻击者能获得模型较高权限的访问（如Logits输出或参数梯度），在黑盒API访问场景下，攻击的可行性可能会有所不同。

4. 应用前景

价值： 该论文对工业界应用具有参考意义。随着GDPR和CCPA的实施，科技公司正在部署数据删除管线。本文提示：模型重训练服务需要考虑潜在的安全风险。
场景： 在联邦学习或外包机器学习场景中，恶意参与者有可能通过请求删除数据来尝试获取其他用户的训练数据隐私。
建议： 实际部署中，不能仅因模型实现了“精确遗忘”就认为其完全符合隐私合规，需要同时验证其对未删除数据的保护能力。

5. 可复现性与相关工作对比

可复现性： 论文的理论推导清晰，攻击算法的描述较为详尽。基于论文描述的算法逻辑，具备隐私攻防背景的研究人员可以复现该攻击。
对比：
- **vs. Machine Unlearning (Bourtoule et al., SA… [注：原文截断，此处保持截断状态]

技术分析

技术分析：Protecting the Undeleted in Machine Unlearning

1. 研究背景与问题

核心问题

该论文主要研究机器遗忘机制中未被删除数据的隐私泄露风险。传统的机器遗忘定义侧重于确保模型更新后的表现等同于从未使用过被删除数据进行训练（即“完美重训练”）。然而，本研究指出，这种机制可能存在一个隐患：为了满足被删除者的请求，未删除数据的安全性可能会受到影响。

研究背景

随着GDPR等法规确立了“被遗忘权”，机器遗忘成为隐私计算领域的研究课题。学术界普遍认为，高效的机器遗忘算法应当模拟“从零开始重训练”的效果。该研究探讨了这种现有范式在保护剩余数据方面的潜在结构性缺陷。

现有方法的局限性

现有的机器遗忘定义主要分为两类：

精确遗忘：要求模型参数与重训练模型完全一致。
差分隐私遗忘：通过在算法中注入噪声来满足某种隐私定义。论文指出，前者容易受到重构攻击，即攻击者可以通过构造删除请求并观察模型变化，反推出未删除的数据内容；而后者虽然安全性较高，但往往因为噪声导致模型可用性下降。

2. 核心方法与创新

提出的核心方法

作者提出了一种新的安全定义，旨在保护未删除数据在删除操作发生时的隐私。该定义的核心思想是：对于任意两个仅相差一个数据点的数据集，在删除该数据点后，算法的输出分布应当是不可区分的。

技术创新点和贡献

重构攻击的构造：作者形式化并证明了对“完美重训练”模型的重构攻击。他们展示了攻击者如何控制少量数据，通过发出删除请求并观察模型更新，恢复出训练集。
新的安全定义：提出了一种专门针对未删除数据保护的变体定义。该定义旨在平衡安全性与功能性。
可行性证明：论文证明了在该定义下，仍然可以实现一系列关键功能，如公告板模型、精确求和以及统计学习。

方法的优势

针对性防御：该定义专门针对“删除”这一动作进行约束，允许在非删除操作时保留数据精度。
理论框架：为未来的算法设计提供了理论目标。

3. 理论基础

使用的理论基础

论文主要基于差分隐私和密码学中的模拟范式。

差分隐私：用于量化隐私泄露的程度。
重构攻击：利用算法的确定性输出特性进行反推。

数学模型与算法设计

攻击模型：假设攻击者可以控制数据集中的一小部分，并能够查询“删除前”和“删除后”的模型。
重构算法：利用“完美重训练”对数据集变化的敏感性。如果删除某个点导致模型变化，攻击者通过多次迭代恢复数据分布。
安全定义的形式化：新定义要求，对于任意相邻数据集 $D$ 和 $D’$（仅在 $x$ 处不同），删除 $x$ 的算法 $\mathcal{A}$ 在 $D$ 和 $D’$ 上的输出分布应当接近。

理论分析与证明

论文通过归约法分析了现有定义的脆弱性。如果存在一个功能函数能够精确计算数据统计量，在“完美重训练”定义下，攻击者可能利用该函数作为探针，通过观察删除前后的统计量差异，推断未删除的数据值。

4. 实验与结果

实验设计与数据集

这是一篇偏向理论计算机科学（TCS）的论文，主要贡献在于定义和证明。作者通过具体的算法示例和理论推导验证了所提攻击的有效性以及新定义的安全性。

结果分析

研究结果显示，在满足传统“完美重训练”定义的算法中，攻击者可以通过观察模型对删除操作的响应，以较高的概率重构出未删除的数据。这证明了现有标准在保护剩余数据方面的不足。同时，论文证明了在提出的新定义下，依然可以保持数据的统计效用。

研究最佳实践

最佳实践指南

实践 1：采用差分隐私技术作为基础防线

说明: 在机器遗忘过程中，仅删除特定数据点可能导致模型参数对该数据的存在仍然敏感（即模型仍保留了该数据的特征）。差分隐私通过在训练过程中向梯度或模型参数添加噪声，从数学上保证单个数据点对模型的影响有限。这是保护“未删除”数据（即保留数据集）最稳健的方法，因为它能从根源上防止模型记忆特定样本的细节。

实施步骤:

在模型训练阶段引入 DP-SGD（差分隐私随机梯度下降）算法。
根据隐私预算（Privacy Budget, $\epsilon$ 和 $\delta$）调整噪声规模，平衡模型可用性与隐私保护程度。
在执行遗忘操作时，确保重新训练或微调过程继续遵循差分隐私的噪声添加机制，防止通过对比遗忘前后的模型推断出被删除数据的特征。

注意事项: 差分隐私通常会带来模型精度的损失。需要在隐私预算和模型性能之间进行权衡，并针对具体的任务场景进行调优。

实践 2：实施严格的成员推断攻击评估

说明: 为了验证“未删除”的数据是否得到了保护，以及被删除的数据是否真正被遗忘，必须主动进行红队测试。成员推断攻击旨在判断某个特定样本是否用于模型的训练集。如果攻击者能以高置信度推断出某个“未删除”样本在训练集中，说明模型泄露了隐私信息。这种评估应作为模型发布前的强制性审计环节。

实施步骤:

构建基准攻击模型，利用模型输出的 logits、置信度或损失值作为特征。
对保留集和删除集中的样本分别进行攻击测试，计算攻击成功率。
如果针对保留集的攻击成功率接近随机猜测（50%），则说明模型较好地保护了未删除数据的隐私。

注意事项: 评估时应涵盖多种类型的 MIA 攻击（例如基于置信度的攻击、基于梯度的攻击），以全面评估模型的隐私泄露风险。

实践 3：构建与维护高质量的“影子数据集”

说明: 在许多实际应用中，原始数据可能因合规要求被彻底销毁，导致无法重新训练模型以验证遗忘效果。最佳实践是预先保留一个与原始数据分布相似但不包含敏感个人信息的“影子数据集”或代理数据集。该数据集用于在原始数据被删除后，继续评估模型的行为，确保模型没有对未删除的数据产生过拟合，且遗忘操作有效。

实施步骤:

在模型开发初期，利用合成数据或经过严格脱敏的数据构建影子数据集。
确保影子数据集在统计特征（如均值、方差、类别分布）上与原始训练数据保持一致。
在执行机器遗忘操作后，使用影子数据集测试模型性能，作为模型可靠性的监控基准。

注意事项: 影子数据集必须经过严格的合规审查，确保其本身不包含任何可复原的敏感信息，且不会引入新的偏差。

实践 4：建立基于影响函数的遗忘验证机制

说明: 机器遗忘不仅仅是重新训练，更核心的是确保被删除的数据点对模型参数的影响被移除。利用影响函数可以定量计算特定训练样本对模型预测的影响权重。通过监控遗忘前后模型参数的变化，可以验证遗忘算法是否精确地移除了目标样本的影响，同时未对其他样本（未删除数据）产生副作用。

实施步骤:

计算待删除样本对模型参数的一阶影响。
执行遗忘算法（如 SISA 架构切片删除或特定微调）。
重新计算影响函数，验证目标样本的影响是否已降至接近零，且其他样本的影响函数曲线保持平稳。

注意事项: 对大型模型计算影响函数计算成本较高（涉及海森矩阵的逆运算），建议采用近似算法或在特定关键层进行计算以提高效率。

实践 5：采用切片架构隔离数据影响范围

说明: SISA（Sharded, Isolated, Sliced, and Aggregated）架构是工程上实现高效且安全机器遗忘的最佳结构之一。通过将原始数据集分割成多个互不相交的切片，每个切片独立训练一个子模型，最终集成预测。当需要删除某条数据时，只需重新训练包含该数据的一个切片，而不需要重训整个模型。这极大地降低了未删除数据被重新训练过程污染的风险。

实施步骤:

将训练数据随机划分为 $k$ 个切片。
训练 $k$ 个独立的模型，每个模型仅使用对应切片的数据。
在推理阶段，聚合所有模型的预测结果（如投票或平均）。
收到删除请求时，定位数据所属切片，仅对该切片数据进行剔除并重训该子模型。

注意事项: 切片数量 $k$ 的选择至关重要。切片越多，单次遗忘的计算成本越低，但模型的泛化能力可能会因为每个子模型见到的数据减少而下降。

实践 6：持续监控模型分布

学习要点

机器遗忘中未被删除的数据面临被模型遗忘的风险，导致模型性能下降，需在删除特定数据的同时保护其余数据的知识。
提出一种基于影响力函数的方法，量化删除操作对未被删除数据的影响，从而优化遗忘过程以减少性能损失。
实验表明，该方法在图像分类和文本生成任务中能有效平衡数据删除与模型性能，优于传统遗忘技术。
引入“影响力正则化”技术，通过约束模型参数更新方向，确保未被删除数据的预测能力不受显著影响。
该方法适用于差分隐私场景，可在保护隐私的同时维持模型对未被删除数据的准确性。
研究揭示了机器遗忘中“过度遗忘”现象的成因，为未来设计更高效的遗忘算法提供了理论依据。

学习路径

阶段 1：基础理论与背景知识

学习内容:

机器学习基础（监督学习、模型训练与评估）
数据隐私保护概念（GDPR、被遗忘权）
机器遗忘的定义与分类（精确遗忘与近似遗忘）
基础遗忘算法（如SISA框架、重训练方法）

学习时间: 2-3周

学习资源:

《机器学习》（周志华著）第1-5章
GDPR官方文档关于数据删除的条款
论文：“Machine Unlearning” (Bourtoule et al., 2021)
arXiv综述：“A Survey on Machine Unlearning”

学习建议: 先掌握机器学习核心概念，再理解隐私保护需求。建议用Python实现简单的SISA框架，对比重训练与近似遗忘的效果差异。

阶段 2：核心算法与技术

学习内容:

影响函数与遗忘关系
梯度下降与模型修正技术
差分隐私在遗忘中的应用
验证遗忘效果的指标（如成员推理攻击防御）

学习时间: 3-4周

学习资源:

论文：“Certified Removal of Influences from Training Data” (Guo et al., 2020)
开源库：PyTorch的torch.autograd实现影响函数
差分隐私教程：IBM Differential Privacy Library文档
arXiv论文：“How to Train Your Data? Machine Unlearning via Data Influence”

学习建议: 重点理解影响函数如何量化数据点对模型的影响。建议复现论文中的实验，使用CIFAR-10等数据集验证遗忘算法的有效性。

阶段 3：高级主题与前沿研究

学习内容:

对抗性遗忘与防御策略
联邦学习中的遗忘问题
大规模模型的高效遗忘技术
遗忘与模型压缩的协同优化

学习时间: 4-6周

学习资源:

最新顶会论文（NeurIPS/ICML/ICLR关于遗忘的论文）
arXiv预印本：“Scrubbing Tools from Language Models”
开源项目：Microsoft的Machine Unlearning工具包
研讨会视频：NeurIPS 2023 “Machine Unlearning” Workshop

学习建议: 关注最新研究动态，尝试改进现有算法。建议参与相关开源项目，或设计针对特定场景（如医疗数据遗忘）的解决方案。

阶段 4：实践应用与领域拓展

学习内容:

实际系统中的遗忘部署（如推荐系统、LLM）
法律合规性验证流程
遗忘算法的效率优化
跨领域应用案例（金融、医疗等）

学习时间: 6-8周

学习资源:

行业白皮书：Google/Apple关于数据删除的技术报告
开源实现：Hugging Face Transformers的遗忘插件
真实数据集：Kaggle中的敏感数据集（需脱敏处理）
法律文档：欧盟EDPB关于"被遗忘权"的指南

学习建议: 结合实际需求设计端到端遗忘系统。建议与法律专家合作，确保技术方案符合法规要求。重点优化大规模模型（如GPT类）的遗忘效率。

阶段 5：精通与创新研究

学习内容:

未解决问题与开放研究方向
新兴攻击方式与防御
理论边界与可证明安全性
跨学科融合（如遗忘与可解释AI）

学习时间: 持续进行

学习资源:

顶级会议最新论文（跟踪arXiv每日更新）
研究组主页：MIT/Google DeepMind的隐私研究团队
学术会议：IEEE S&P、USENIX Security相关session
预印本平台：OpenReview的讨论区

学习建议: 尝试提出新的遗忘框架或理论证明。建议撰写并投稿高质量论文，关注实际部署中的鲁棒性问题。可探索遗忘与模型公平性、可解释性等方向的交叉研究。

常见问题

1: 什么是“机器遗忘”，为什么它比简单的数据删除更复杂？

A: 机器遗忘旨在从训练好的机器学习模型中移除特定数据的影响，使其表现得如同这些数据从未参与过训练一样。这比简单的“数据删除”更复杂，因为模型已经内化了数据的特征。仅仅从数据库中删除原始记录并不能改变模型内部的参数权重，模型可能仍然保留着关于被删除数据的记忆或模式。因此，机器遗忘需要通过算法手段（如微调或参数调整）来“抹去”数据在模型中的痕迹，同时尽量保持模型在其他任务上的性能。

2: 文章标题中的“保护未删除数据”指的是什么？为什么这是一个挑战？

A: 在机器遗忘的过程中，核心挑战之一是“精确性”，即确保遗忘算法只移除了目标数据（被遗忘者）的影响，而完美保留了其余数据（未删除数据）的价值。“保护未删除数据”指的是在执行遗忘操作时，必须防止模型发生“性能崩溃”或对保留数据的“灾难性遗忘”。如果遗忘算法过于激进，可能会导致模型不仅忘记了需要删除的内容，还遗忘了其他通用知识，从而损害模型的可用性和准确性。这是一个权衡问题：如何在彻底擦除特定信息的同时，维持模型对剩余数据的处理能力。

3: 机器遗忘与差分隐私有什么区别？

A: 虽然两者都涉及数据隐私保护，但它们的关注点和实现方式不同。差分隐私通常是在模型训练阶段通过添加噪声来掩盖任何单个训练数据对模型结果的贡献，它是一种预防性的隐私保护手段，侧重于防止模型记忆训练集中的任何特定样本。而机器遗忘通常是一种事后补救措施，当数据需要被撤回（例如行使“被遗忘权”）时，通过算法修改模型以移除特定数据的影响。差分隐私关注的是统计上的不可区分性，而机器遗忘关注的是对特定数据集影响的实际移除。

4: 实现机器遗忘的主要技术路线有哪些？

A: 目前主要的技术路线大致可以分为两类：

精确遗忘：通常通过维护训练过程中的额外信息（如梯度、统计信息或数据分片），使得在删除数据时能够精确地回滚或重新计算模型参数，从而保证模型状态与未使用该数据训练时完全一致。
近似遗忘：不追求完美的精确性，而是通过对模型进行微调，例如使用特定的损失函数惩罚模型对目标数据的预测能力，或者利用生成模型合成替代数据来重训，以在计算效率和遗忘效果之间取得平衡。

5: 如何验证一个机器遗忘算法是否成功？

A: 验证通常从两个维度进行：

遗忘质量：评估模型是否真的“忘记”了目标数据。常用的测试方法包括成员推理攻击，即攻击者能否判断该数据曾被用于训练；以及检查模型对目标数据的预测准确率是否下降到随机猜测的水平。
模型效用：评估模型在剩余数据上的表现是否保持稳定。如果遗忘操作导致模型在测试集上的整体准确率大幅下降，或者对保留数据的分类能力受损，则说明算法未能有效“保护未删除数据”。

6: 机器遗忘在实际应用中面临哪些计算成本？

A: 计算成本是机器遗忘落地的主要瓶颈之一。最理想的方法（如从头重新训练模型）虽然能完美满足要求，但对于大型深度学习模型来说成本极高。现有的高效遗忘算法虽然降低了计算量，但往往需要存储额外的中间状态（如Hessian矩阵或训练数据快照），这会带来巨大的存储开销。因此，如何在有限的存储和计算资源下，实现快速且高质量的遗忘，是当前研究的重点。

思考题

## 挑战与思考题

### 挑战 1: [简单]

问题**: 在机器遗忘的框架中，“保留集”（Retain Set）和"删除集"（Forget Set）通常被视为互斥的数据集。请思考：如果"删除集"中的数据样本与"保留集"中的样本存在高度的重叠或相似性（例如，两个数据集中都包含"猫"的图片，只是拍摄角度不同），简单的基于梯度上升的遗忘算法会对保留集模型的性能产生什么具体影响？

提示**: 考虑模型参数更新的方向。如果对删除集样本施加梯度上升（增加损失），而该样本的特征与保留集样本高度相似，这种参数更新是否会意外地破坏模型在保留集上学习到的特征表示？

引用

ArXiv: http://arxiv.org/abs/2602.16697v1
PDF: https://arxiv.org/pdf/2602.16697v1.pdf

注：文中事实性信息以以上引用为准；观点与推断为 AI Stack 的分析。

站内链接

分类：论文 / 安全
标签：机器遗忘 / 隐私保护 / 重构攻击 / 数据删除 / 模型安全 / 差分隐私 / cs.LG / 数据泄露
场景： Web应用开发

机器遗忘中保护未删除数据的隐私防御机制
迈向可解释联邦学习：理解差分隐私的影响
🚨SoundCloud数据泄露！你的密码是否已遭泄露？快查！🔥
🚨SoundCloud数据泄露！HaveIBeenPwned紧急更新！
⚠️FBI紧急调查！Signal聊天记录竟被追踪？ICE引发隐私大地震！🔓 本文由 AI Stack 自动生成，深度解读学术研究。

机器遗忘中保护未删除数据隐私的方法