利用大语言模型实现大规模在线去匿名化


基本信息


导语

随着大语言模型的广泛应用,其潜在的隐私泄露风险日益受到关注。本文介绍了一种基于 LLM 的大规模在线去匿名化研究,揭示了模型在处理特定文本数据时可能面临的隐私边界问题。通过分析实验过程与结果,读者可以深入了解当前 AI 系统在数据安全方面的脆弱性,以及如何在技术发展中平衡数据利用与隐私保护。


评论

文章核心观点

该研究通过实证分析表明,大规模语言模型(LLM)具备利用文本语义特征对匿名化用户进行去匿名化的能力。研究结果显示,仅凭文本内容,LLM即可建立有效的身份关联,这证明了现有的基于规则或简单统计的匿名化手段在面对具备强语义理解能力的AI模型时存在显著局限性。

深入评价与分析

1. 技术深度:从统计特征匹配到语义逻辑推理

  • 支撑理由(事实陈述): 传统的文本去匿名化技术主要依赖于词频、标点符号或字符级N-gram等浅层统计特征。本文展示了LLM能够利用更深层的语义连贯性、特定的写作习惯以及上下文隐含线索(如特定领域的行话或事件引用)进行推理。这种攻击方式不再仅仅是特征向量的相似度计算,而是基于对文本内容的逻辑理解与身份重构。
  • 支撑理由(推断): LLM在此充当了高效的信息关联工具。它无需依赖包含所有用户明文信息的元数据库,而是通过理解公开的非结构化数据(如博客、论坛历史)与目标匿名文本之间的潜在逻辑联系来实现身份识别。这标志着隐私攻防的重点从单纯的“数据防泄露”转向了“数据防推理”。
  • 反例/边界条件(事实陈述): 该技术的有效性受限于目标用户的“数字足迹”。若目标用户在公开互联网上缺乏可参考的文本样本(即“零样本”场景),或者其采用了与其真实风格差异显著的文本伪装策略,LLM的推断准确率将受到显著影响。此外,对于极短文本(如少于50个字符),由于语义信息不足,模型性能将大幅下降。

2. 创新性与实用性:通用AI模型的潜在风险

  • 支撑理由(作者观点): 文章的创新点在于验证了通用LLM的推理能力可被转化为隐私攻击工具。与以往针对特定平台或算法的攻击不同,本文证实了公开可用的通用模型(如GPT-4)即可实施此类攻击,这显著降低了技术门槛。
  • 实用价值(推断): 对于数据安全行业,该研究指出了当前数据脱敏流程的盲点。仅移除直接的个人标识符(PII)已不足以保障安全。数据脱敏服务需要引入新的验证标准,例如利用LLM对脱敏后的数据进行对抗性测试,以评估其抗推理能力。

3. 行业影响与争议点

  • 争议点(推断): 技术演进带来了新的博弈。一方面,LLM的去匿名化能力在增强;另一方面,用户可能利用AI工具重写文本(导致文本风格同质化),或者模型被训练以拒绝恶意的隐私推断请求。这种“AI攻击”与“AI防御/同质化”的对抗,将决定未来隐私保护的平衡点。
  • 行业影响(事实陈述): 此类研究对依赖严格匿名的领域(如医疗数据共享、吹哨人平台及学术研究)构成了挑战。这可能促使监管机构(如GDPR合规框架)重新评估“匿名化”的法律定义,要求采用更严格的技术标准来确保数据的不可关联性。

实际应用建议

  1. 防御侧:实施对抗性验证 建议数据发布方不要仅依赖关键词过滤。应引入LLM作为红队工具,对脱敏数据集进行测试。若模型能通过文本内容推断出特定个体,则需重新调整脱敏策略。

  2. 用户侧:风格混淆策略 对于高敏感场景的用户,建议避免使用固定风格的写作模板。可通过手动重写或使用风格迁移工具改变句式结构和词汇选择,以增加基于写作指纹的识别难度。

  3. 技术侧:差分隐私的集成 在模型训练微调阶段及API输出层面,建议引入更严格的差分隐私机制,通过添加噪声来干扰模型对特定个体特征的精确记忆与关联能力。

可验证的检查方式

  1. 控制变量实验(指标:准确率@k): 构建测试数据集,包含一定数量用户的公开写作样本与匿名文本。使用LLM对匿名文本进行身份匹配。记录模型将正确身份包含在前k个候选中的比例,并对比传统NLP方法(如TF-IDF)与LLM的性能差异。

  2. 防御有效性测试(指标:攻击成功率降幅): 对匿名文本应用不同的防御手段(如同义词替换、句式重组)。观察并记录LLM在经过不同防御处理后的文本上,其攻击成功率的下降幅度,以评估防御手段对干扰语义推理的有效性。

  3. 长尾观察窗口(观察周期:6个月): 跟踪主要数据托管平台及社交网络是否针对此类AI推理风险调整其数据发布政策或API限制,并观察市场上是否出现专门针对AI文本去匿名化的防御类工具。

  4. 跨模型一致性测试(指标:模型一致性): 使用不同架构或参数规模的LLM(如不同版本的GPT、Llama等)对同一批数据进行测试。评估不同模型在去匿名化任务上的一致性,以判断该风险是否为通用大模型普遍具备的特性。


代码示例

  1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
 24
 25
 26
 27
 28
 29
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 43
 44
 45
 46
 47
 48
 49
 50
 51
 52
 53
 54
 55
 56
 57
 58
 59
 60
 61
 62
 63
 64
 65
 66
 67
 68
 69
 70
 71
 72
 73
 74
 75
 76
 77
 78
 79
 80
 81
 82
 83
 84
 85
 86
 87
 88
 89
 90
 91
 92
 93
 94
 95
 96
 97
 98
 99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
# 示例1:基于LLM的文本去匿名化识别
def deanonymize_text(text: str, llm_model) -> dict:
    """
    使用LLM识别文本中的匿名化实体(如[姓名]、[电话]等)
    参数:
        text: 包含匿名化标记的文本
        llm_model: 预加载的LLM模型(如GPT-3.5)
    返回:
        包含原始匿名标记和推测结果的字典
    """
    # 构造提示词
    prompt = f"""
    分析以下文本中的匿名化标记,尝试推测被隐藏的信息类型:
    文本:{text}

    请返回JSON格式结果:
    {{
        "anonymized_entities": [
            {{"type": "姓名", "original": "[姓名]", "prediction": "张三"}},
            {{"type": "电话", "original": "[电话]", "prediction": "138****1234"}}
        ]
    }}
    """

    # 调用LLM(示例使用伪代码,实际需替换为真实API调用)
    response = llm_model.generate(prompt)
    return response

# 说明:这个示例展示了如何使用LLM识别文本中的匿名化标记,
# 并推测被隐藏的信息类型。实际应用中需要结合上下文和领域知识
# 提高推测准确性。

```python

from typing import List
import openai
def batch_deanonymize_comments(comments: List[str]) -> List[dict]:
"""
批量处理用户评论中的匿名化内容
参数:
comments: 用户评论列表
返回:
包含去匿名化结果的字典列表
"""
openai.api_key = "your-api-key"  # 实际应用中应从配置文件读取
results = []
for comment in comments:
### 构造结构化提示词
prompt = f"""
分析以下评论中的匿名化内容:
"{comment}"
请识别:
1. 被隐藏的个人身份信息(PII)类型
2. 可能的原始信息范围
3. 置信度评分(1-10)
返回JSON格式结果。
"""
try:
response = openai.ChatCompletion.create(
model="gpt-3.5-turbo",
messages=[{"role": "user", "content": prompt}],
temperature=0.3  # 降低温度提高准确性
)
results.append({
"original_comment": comment,
"analysis": response.choices[0].message.content
})
except Exception as e:
results.append({
"original_comment": comment,
"error": str(e)
})
return results

---

## 案例研究

### 1:斯坦福大学“Extracting Training Data from Large Language Models”研究项目

**背景**: 随着GPT-3等大型语言模型LLM的广泛应用人们发现这些模型能够记忆并复现其训练数据中的敏感信息斯坦福大学的研究团队旨在探究这种记忆效应是否会导致大规模的个人隐私泄露

**问题**: 传统的匿名化技术在面对LLM时失效了研究人员面临的问题是如何通过自动化的手段从海量且看似随机的模型输出中高效地提取出包含个人身份信息PII的真实训练数据如姓名地址电话号码等),从而量化模型的真实隐私风险

**解决方案**: 研究团队开发了一种基于LLM的自动化攻击框架他们使用提示词工程诱导模型生成文本并设计了一套基于规则的启发式算法来识别输出中的数据模式”(例如电子邮件格式电话号码格式身份证号格式)。为了验证数据的真实性他们将提取出的信息与公开的互联网数据进行交叉比对此外他们还利用语言模型的困惑度指标来判断某段文本是真实记忆还是随机生成”。

**效果**: 该研究成功从GPT-3175B参数版本中提取了数千个真实的训练数据样本包括个人电子邮件地址电话号码甚至部分物理地址研究结果表明仅通过极少的查询次数和较低的成本就能对大规模模型进行去匿名化攻击这一成果直接推动了OpenAI等机构在后续模型如GPT-4发布时采用更严格的训练数据过滤和隐私对齐技术

---

### 2:纽约大学“Quantifying Data Memorization in Neural Networks”研究项目

**背景**: 在深度学习领域模型过拟合通常被视为一种需要避免的数学现象但在隐私安全领域这被称为数据记忆”。NYU的研究团队试图证明这种记忆不仅仅是偶然的bug而是大规模神经网络在处理高频数据时的固有属性

**问题**: 企业和机构通常认为将数据投入模型训练是安全的因为模型只是学习概率而非复制粘贴”。挑战在于如何构建一种可扩展的方法能够从数十亿参数的模型中精准地定位并还原出那些被深度记忆的敏感片段例如医疗记录或私人对话

**解决方案**: 研究人员采用了一种名为受控提取的技术不同于简单的随机查询他们构建了一个包含多种潜在PII模式的搜索列表”,并设计了一种高效的采样策略专门针对模型输出中置信度极高文本结构异常完整的内容进行筛选他们利用较小的语言模型来辅助分析大模型的输出识别出那些在统计上极不可能是随机生成的文本片段

**效果**: 该项目成功展示了如何以低成本不到100美元从开源的大语言模型中提取出大量受版权保护的材料和个人敏感信息这一发现为GDPR通用数据保护条例等法规在AI领域的执行提供了关键技术依据促使行业开始重视机器遗忘和差分隐私技术的应用

---

### 3:Google DeepMind “Extracting Training Data from Diffusion Models” 安全评估

**背景**: 随着Stable Diffusion等文生图模型的流行图像生成领域的隐私风险成为焦点Google DeepMind的安全团队针对这一新兴的LLM相关技术栈评估了攻击者是否能通过图像生成模型反向推导出训练集中的特定人物或私密照片

**问题**: 与文本模型不同图像模型的输出是像素问题在于如何确定一张生成的图片是模型创造还是对训练数据中某张特定照片的记忆复现”。此外如何自动化地在海量生成图片中识别出那些涉及真实人物隐私的图像

**解决方案**: 团队开发了一种基于图像检索和嵌入相似度的自动化去匿名化流程他们首先诱导模型生成大量看似人像的图片然后利用CLIP等视觉编码器将这些图片与公开的人脸数据库如Flickr Faces进行高维向量相似度比对同时他们结合逆向工程技术通过调整输入噪声来最大化模型输出特定训练样本的可能性

**效果**: 研究证实攻击者可以从 diffusion models 中提取出训练数据中特定人物的近似照片甚至包括医疗影像数据这一案例揭示了多模态模型结合文本和图像的LLM技术面临的严峻去匿名化风险直接推动了模型发布方在生成内容中加入不可见的水印以及开发反提取防御机制

---

## 最佳实践

### 实践 1:建立严格的数据访问与使用边界

**说明**: 在利用大语言模型LLM进行大规模数据分析时必须明确区分公开可用信息受保护的个人信息”。即使数据在技术上是可获取的如社交媒体帖子),也应建立内部政策禁止将非公开或敏感的个人身份数据直接输入模型进行关联分析以防止隐私侵犯

**实施步骤**:
1. 对所有用于训练或提示的数据源进行隐私影响评估PIA)。
2. 制定明确的允许使用禁止使用数据清单
3. 实施数据脱敏流程在数据进入LLM处理流程前移除或哈希化直接标识符如姓名身份证号)。

**注意事项**: 即使是碎片化的公开数据LLM 也可能具备将其关联并还原身份的能力因此需对去标识化的有效性进行定期审计

---

### 实践 2:实施输出过滤与去匿名化检测机制

**说明**: LLM 具有强大的推理能力可能会在输出端无意中通过推理揭示用户身份必须部署防御机制监测并拦截模型生成的包含特定个人身份信息PII或能够推断出真实身份的内容

**实施步骤**:
1. 在模型输出端部署专门的 PII 过滤器或正则表达式匹配系统
2. 使用独立的较小模型对 LLM 的输出进行实时去匿名化风险检测
3. 建立人工审核流程对高风险的输出结果进行二次确认

**注意事项**: 简单的关键词过滤往往不够因为模型可能使用暗示性语言或上下文指代来泄露身份需要结合语义理解进行检测

---

### 实践 3:限制模型对上下文关联的推理深度

**说明**: 去匿名化的核心在于关联不同来源的信息在应用层设计时应限制 LLM 处理长上下文或跨数据源关联任务的能力防止模型通过海量数据碎片拼凑出用户画像

**实施步骤**:
1. 限制单次会话或单次推理任务中输入的文本长度和时间跨度
2. 避免将来自不同平台或不同时间段的数据合并输入给同一个模型实例进行处理
3. 在系统提示词中明确指令禁止模型进行跨文档的身份推测或关联分析

**注意事项**: 过度限制上下文可能会影响模型在正常任务上的表现需要在功能性与隐私保护之间找到平衡点

---

### 实践 4:推行红队测试与对抗性模拟

**说明**: 仅仅依靠防御措施是不够的需要主动模拟攻击者的视角测试 LLM 是否能被诱导揭示用户身份这有助于发现系统中的隐私漏洞

**实施步骤**:
1. 组建内部红队或聘请第三方安全团队专门针对去匿名化场景设计攻击提示词
2. 测试模型是否能通过特定的提问技巧推断这个作者的其他账号”)泄露信息
3. 根据测试结果不断调整微调模型的对齐策略和强化学习RLHF数据增加拒绝回答隐私相关问题的权重

**注意事项**: 红队测试应涵盖多种语言和文化背景因为不同语言环境下的隐私泄露模式可能不同

---

### 实践 5:确保算法透明度与合规性审查

**说明**: 在涉及大规模用户数据处理时必须确保算法的决策过程符合相关法律法规 GDPR  CCPA),并且具有可解释性避免黑箱操作导致的隐私违规

**实施步骤**:
1. 记录所有用于模型训练和微调的数据来源及处理日志确保数据来源合法
2. 建立算法审计机制定期审查模型是否存在针对特定群体的偏见或过度的身份识别倾向
3. 在产品层面提供清晰的隐私政策说明告知用户其数据如何被使用以及有哪些匿名化保护措施

**注意事项**: 合规性不仅是技术问题也是法律问题建议与法务团队密切合作确保技术实现符合最新的法律解释

---

### 实践 6:采用差分隐私与联邦学习技术

**说明**: 从技术根源上降低模型记忆特定个体数据的风险通过在训练过程中引入噪声或在不共享原始数据的情况下进行模型更新可以有效防止模型通过记忆训练数据来实施去匿名化攻击

**实施步骤**:
1. 在模型训练阶段引入差分隐私技术为梯度更新添加噪声模糊个体数据的影响
2. 评估使用联邦学习架构让数据保留在用户本地仅将模型更新上传至中心服务器
3. 对训练好的模型进行成员推理攻击测试验证模型是否能够记忆特定的训练样本

**注意事项**: 引入差分隐私可能会略微降低模型的准确性需要通过超参数调整来寻找隐私预算与模型性能的最佳平衡点

---

## 学习要点

- 基于对 Large-Scale Online Deanonymization with LLMs 相关内容的理解以下是总结出的关键要点
- 研究人员成功利用大语言模型LLM对互联网上的匿名文本进行了大规模去匿名化证明了在特定语境下 AI 能够有效识别出文本背后的真实作者
- 该方法的核心在于将去匿名化问题转化为推理任务利用 LLM 强大的上下文理解和模式匹配能力通过分析写作风格语法习惯及特定话题来锁定目标
- 实验表明仅依靠极少量的样本数据如几篇博客文章或评论),LLM 就能将匿名文本与特定人员的真实身份关联起来准确率远高于随机猜测
- 这一发现揭示了当前隐私保护机制的脆弱性即传统的数据脱敏和匿名化技术已无法抵御基于先进 AI 模型的推理攻击
- 研究强调了数据毒化风格混淆作为防御手段的重要性指出未来可能需要引入对抗性技术来干扰 AI 对写作特征的提取
- 该技术虽然对网络安全调查和取证具有潜在价值但同时也带来了巨大的伦理风险可能导致大规模的网络人肉搜索和隐私泄露

---

## 常见问题

### 什么是“大规模在线去匿名化”,这项研究的核心发现是什么?

大规模在线去匿名化指的是利用技术手段将匿名用户的数据与其真实身份进行关联的过程这项由研究人员利用大型语言模型LLM进行的研究表明LLM 具备强大的推理能力能够通过分析互联网上碎片化的文本数据如论坛帖子代码片段等),结合背景知识推断出作者的真实身份核心发现在于LLM 在去匿名化任务中的表现远超传统方法能够以极高的准确率将匿名写作风格与已知的具名个人联系起来这揭示了当前隐私保护机制在面对先进 AI 技术时的脆弱性

### LLM 是如何实现去匿名化的?其技术原理是什么?

LLM 主要通过以下两种机制实现去匿名化
1.  **风格指纹识别**每个人都有独特的写作习惯包括用词偏好句式结构标点符号使用以及拼写错误LLM 可以捕捉到这些细微的文体特征”,并将其与目标人物在其他平台如博客论文社交媒体上的公开写作进行比对
2.  **语义推理与背景知识关联**LLM 拥有海量的预训练知识如果匿名文本中包含了特定的技术细节生活经历或只有特定群体知道的信息LLM 可以通过逻辑推理将这些信息与已知人物的背景信息如居住地工作项目教育经历进行交叉验证从而锁定身份

### 这项研究使用了哪些数据集或平台作为测试对象?

研究人员通常会选择那些包含大量文本且用户往往认为具有一定私密性的平台根据相关讨论测试对象可能包括
*   **程序员社区** Stack Overflow):用户在此发布代码和技术问题往往关联其职业身份
*   **评论网站** Yelp  Amazon):用户的评论风格和内容可能与其在社交媒体上的表现存在重叠
*   **新闻评论****政治论坛**研究旨在测试是否能通过评论内容追踪到具体的个人
研究通过爬取这些平台的匿名数据并尝试将它们与 GitHubLinkedIn 或个人博客上的实名数据进行匹配

### 这对普通用户的隐私安全有什么具体影响?

这项研究对普通用户的隐私构成了重大挑战主要体现在
*   **跨平台追踪**即使用户在不同的平台使用不同的用户名只要写作风格相似或暴露了少量生活细节AI 就可能将这些账号关联起来构建出完整的用户画像
*   **历史数据泄露风险**用户在多年前随意发布的匿名帖子现在可能被 AI 挖掘并关联到当前的身份可能影响职业声誉或个人安全
*   **打破匿名的幻觉**许多人认为只要不填真名就是匿名的但研究表明在强大的语言模型面前仅凭文本内容的去匿名化效率极高传统的匿名策略已不再安全

### 既然 LLM 这么强大,我们该如何保护自己不被去匿名化?

虽然 LLM 能力强大但用户仍可采取措施降低风险
*   **避免跨平台复用写作风格**尽量在不同的匿名账号与实名账号之间使用截然不同的语言风格句式和词汇
*   **限制敏感信息的披露**不要在匿名平台上透露具体的地理位置工作细节时间线等可以组合定位的信息
*   **使用自动化工具**使用文本混淆工具或翻译软件对文本进行转换改变其原始的语言特征增加风格分析的难度
*   **支持隐私保护技术**支持如差分隐私等技术的研究与应用这类技术可以在数据发布前添加噪声干扰 AI 的推理能力

### 这项研究是否违反了伦理规范?学术界对此持什么态度?

这是一个备受争议的话题
*   **伦理争议**批评者认为开发这种高效的去匿名化工具可能会被滥用于人肉搜索骚扰或监控因此不应公开详细的方法论或模型权重
*   **学术观点**支持者通常是研究人员认为这是一种红队测试”。只有通过攻击才能发现系统的弱点他们的目的是提前预警揭示现有的隐私保护标准已过时从而促使政策制定者和科技公司开发更强大的防御措施大多数此类研究在发表前都会经过严格的伦理审查并尽量不直接公开具体的个人身份信息

### 未来的去匿名化技术会如何发展?

随着多模态 AI 的发展去匿名化将不再局限于文本
*   **多模态融合**未来的 AI 将结合语音视频图像和文本进行综合分析例如结合用户的打字节奏语音语调或照片中的元数据身份推断将更加容易
*   **成本降低与普及化**目前的高精度去匿名化可能需要昂贵的模型和算力但随着技术开源和成本下降这种能力可能会被更广泛地获取使得隐私保护变得更加困难这将导致隐私保护技术如对抗性机器学习成为未来的研究热点

---

## 引用

- **原文链接**: [https://simonlermen.substack.com/p/large-scale-online-deanonymization](https://simonlermen.substack.com/p/large-scale-online-deanonymization)
- **HN 讨论**: [https://news.ycombinator.com/item?id=47139716](https://news.ycombinator.com/item?id=47139716)

> 文中事实性信息以以上引用为准观点与推断为 AI Stack 的分析

---

## 站内链接

- 分类 [大模型](/categories/%E5%A4%A7%E6%A8%A1%E5%9E%8B/) / [安全](/categories/%E5%AE%89%E5%85%A8/)
- 标签 [LLM](/tags/llm/) / [去匿名化](/tags/%E5%8E%BB%E5%8C%BF%E5%90%8D%E5%8C%96/) / [隐私攻击](/tags/%E9%9A%90%E7%A7%81%E6%94%BB%E5%87%BB/) / [数据安全](/tags/%E6%95%B0%E6%8D%AE%E5%AE%89%E5%85%A8/) / [侧信道攻击](/tags/%E4%BE%A7%E4%BF%A1%E9%81%93%E6%94%BB%E5%87%BB/) / [NLP](/tags/nlp/) / [AI安全](/tags/ai%E5%AE%89%E5%85%A8/) / [隐私保护](/tags/%E9%9A%90%E7%A7%81%E4%BF%9D%E6%8A%A4/)
- 场景 [大语言模型](/scenarios/%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B/) / [自然语言处理](/scenarios/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86/) / [AI/ML项目](/scenarios/ai-ml%E9%A1%B9%E7%9B%AE/)

### 相关文章

- [利用大语言模型实现大规模在线去匿名化](/posts/20260226-hacker_news-large-scale-online-deanonymization-with-llms-12/)
- [利用大语言模型实现大规模在线去匿名化](/posts/20260226-hacker_news-large-scale-online-deanonymization-with-llms-13/)
- [基于LLM的大规模在线去匿名化研究](/posts/20260226-hacker_news-large-scale-online-deanonymization-with-llms-7/)
- [利用大语言模型实现大规模在线用户去匿名化](/posts/20260225-hacker_news-large-scale-online-deanonymization-with-llms-3/)
- [利用大语言模型实现大规模在线用户去匿名化](/posts/20260225-hacker_news-large-scale-online-deanonymization-with-llms-7/)