模型可解释性

条目：4

2026年二月 4 篇

类型	阅读	条目
[自动] [BLOGS_PODCASTS]	2min	mic 麻省理工学院新方法根除漏洞并提升大语言模型安全性 02-20 MIT LLM 模型安全
[自动] [HACKER_NEWS]	4min	newspaper Anthropic 试图隐藏 Claude AI 行为引发开发者不满 02-16 Anthropic Claude 开发者
[自动] [ARXIV]	1min	school 循环Transformer的步级数据归因方法 02-11 Transformer 数据归因模型可解释性
[自动] [ARXIV]	3min	school 大语言模型稀疏奖励子系统 02-03 LLM 稀疏奖励价值神经元