可解释性

条目：35

2026年二月 34 篇

类型	阅读	条目
[自动] [HACKER_NEWS]	6min	newspaper 能对齐十位数加法的最小Transformer模型 02-28 Transformer 算法算术
[自动] [ARXIV]	2min	school 缓解可读性代价：基于解耦证明者-验证者博弈的方法 02-27 LLM 可解释性模型评估
[自动] [HACKER_NEWS]	4min	newspaper 用概念代数引导可解释的语言模型 02-26 可解释性概念代数模型控制
[自动] [ARXIV]	4min	school 行为学习：从数据中学习分层优化结构 02-25 行为学习分层优化可解释性
[自动] [ARXIV]	4min	school 行为学习：从数据中学习分层优化结构 02-24 行为学习分层优化可解释性
[自动] [HACKER_NEWS]	6min	newspaper Steerling-8B：可解释自身生成任一 token 的语言模型 02-24 Steerling-8B 可解释性 LLM
[自动] [HACKER_NEWS]	3min	newspaper Steerling-8B：可解释自身生成任一 Token 的语言模型 02-24 Steerling-8B 可解释性 LLM
[自动] [HACKER_NEWS]	5min	newspaper Steerling-8B：可解释自身生成任一 Token 的语言模型 02-24 Steerling-8B 可解释性 LLM
[自动] [HACKER_NEWS]	4min	newspaper Steerling-8B：可解释自身生成任一 Token 的语言模型 02-24 Steerling-8B 可解释性 LLM
[自动] [HACKER_NEWS]	4min	newspaper Steerling-8B：可解释自身生成任一 Token 的语言模型 02-24 Steerling-8B 可解释性 LLM
[自动] [BLOGS_PODCASTS]	2min	mic MIT新方法根除漏洞并提升大语言模型安全性与性能 02-23 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]	2min	mic MIT新方法揭示大模型隐藏偏差并提升安全性 02-23 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]	2min	mic MIT新方法根除漏洞并提升LLM安全性与性能 02-21 MIT LLM 模型安全
[自动] [HACKER_NEWS]	4min	newspaper 大语言模型推理失败机制分析 02-21 LLM 推理逻辑错误
[自动] [BLOGS_PODCASTS]	2min	mic 麻省理工学院新方法提升大语言模型安全性与性能 02-21 MIT LLM 可解释性
[自动] [BLOGS_PODCASTS]	2min	mic MIT新方法根除漏洞并提升大语言模型安全性与性能 02-20 LLM MIT 模型安全
[自动] [ARXIV]	4min	school 因果性是可解释性泛化的关键 02-20 可解释性因果推断泛化性
[自动] [ARXIV]	3min	school 因果性是可解释性泛化的关键 02-19 因果推断可解释性 LLM
[自动] [BLOGS_PODCASTS]	2min	mic MIT新方法根除漏洞并提升大语言模型安全性与性能 02-19 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]	2min	mic 2026年负责任人工智能进展报告 02-19 负责任AI AI安全伦理
[自动] [BLOGS_PODCASTS]	2min	mic 2026年度负责任人工智能进展报告 02-19 负责任AI AI安全伦理
[自动] [BLOGS_PODCASTS]	2min	mic 2026年负责任AI进展报告 02-18 负责任AI AI治理 AI伦理
[自动] [BLOGS_PODCASTS]	2min	mic 2026年度负责任人工智能进展报告 02-18 负责任AI AI安全模型治理
[自动] [HACKER_NEWS]	4min	newspaper 语义消融实验：揭示AI写作为何平庸同质化 02-17 语义消融 AI写作同质化
[自动] [ARXIV]	4min	school 过程监督多智能体强化学习提升临床推理可靠性 02-17 多智能体强化学习临床推理
[自动] [ARXIV]	2min	school 迈向可解释联邦学习：理解差分隐私的影响 02-12 联邦学习差分隐私可解释性
[自动] [ARXIV]	3min	school 迈向可解释联邦学习：理解差分隐私的影响 02-11 联邦学习差分隐私可解释性
[自动] [ARXIV]	4min	school 学习大模型神经元激活的生成式元模型 02-09 神经元激活生成式模型元模型
[自动] [BLOGS_PODCASTS]	3min	mic Goodfire AI 打造机械可解释性标杆并发布 API 02-09 Goodfire AI 可解释性 Mechanistic Interpretability
[自动] [BLOGS_PODCASTS]	3min	mic 首个机制可解释性前沿实验室：Goodfire AI 团队专访 02-07 机制可解释性 Goodfire AI AI安全
[自动] [ARXIV]	4min	school 研究揭示推理大模型生成虚假新闻的内在机制 02-06 LLM CoT 虚假新闻
[自动] [ARXIV]	3min	school CoT非真理链：推理LLM生成假新闻的实证内部分析 02-05 LLM CoT 假新闻
[自动] [ARXIV]	4min	school DeALOG：基于日志中介的去中心化多智能体推理框架 02-03 Multi-Agent 去中心化日志中介
[自动] [ARXIV]	4min	school ExplainerPFN：面向表格数据的无模型零样本特征重要性估计 02-02 ExplainerPFN TabPFN 表格数据

2026年一月 1 篇

类型	阅读	条目
[自动] [ARXIV]	5min	school 🚀ctELM：用ELM解码临床试验嵌入！精准操控💡 01-28 ctELM 临床试验嵌入空间