模型安全

条目：38

2026年二月 38 篇

类型	阅读	条目
[自动] [HACKER_NEWS]	4min	newspaper 逆向工程挑战：解析神经网络架构与参数 02-27 逆向工程神经网络模型安全
[自动] [HACKER_NEWS]	4min	newspaper 逆向工程神经网络：技术挑战与防御机制解析 02-27 模型提取逆向工程模型安全
[自动] [HACKER_NEWS]	4min	newspaper 逆向工程挑战：解析该神经网络架构 02-27 神经网络逆向工程模型架构
[自动] [HACKER_NEWS]	4min	newspaper 逆向工程挑战：能否破解我们的神经网络架构 02-27 逆向工程神经网络模型安全
[自动] [BLOGS_PODCASTS]	2min	mic Anthropic 模型蒸馏与 SWE-Bench 作弊机制分析 02-27 模型蒸馏 SWE-bench 奖励黑客
[自动] [ARXIV]	4min	school 现成图像模型可攻破图像保护方案 02-27 图像保护对抗攻击 Stable Diffusion
[自动] [HACKER_NEWS]	4min	newspaper Anthropic 放弃核心安全承诺，不再发布高风险模型 02-26 Anthropic 模型安全 AI治理
[自动] [HACKER_NEWS]	4min	newspaper Anthropic 放弃旗舰产品安全承诺 02-25 Anthropic Claude 安全承诺
[自动] [ARXIV]	4min	school VAUQ：面向LVLM自评估的视觉感知不确定性量化 02-25 LVLM 多模态不确定性量化
[自动] [HACKER_NEWS]	3min	newspaper Anthropic 撤销旗舰级安全承诺，不再遵守自愿安全准则 02-25 Anthropic 安全承诺 AI治理
[自动] [BLOGS_PODCASTS]	2min	mic MIT新方法根除漏洞并提升大语言模型安全性与性能 02-23 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]	2min	mic MIT新方法根除漏洞并提升大语言模型安全性与性能 02-23 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]	2min	mic MIT新方法根除漏洞并提升大语言模型安全性与性能 02-23 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]	2min	mic MIT新方法揭示大模型隐藏偏差并提升安全性 02-23 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]	2min	mic 麻省理工学院新方法根除漏洞提升大模型安全性与性能 02-22 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]	2min	mic MIT新方法根除漏洞并提升LLM安全性与性能 02-21 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]	2min	mic 麻省理工学院新方法提升大语言模型安全性与性能 02-21 MIT LLM 可解释性
[自动] [BLOGS_PODCASTS]	2min	mic MIT新方法根除漏洞并提升大语言模型安全性与性能 02-20 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]	2min	mic 麻省理工学院新方法根除漏洞并提升大模型安全性与性能 02-20 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]	2min	mic MIT新方法根除漏洞并提升大语言模型安全性与性能 02-20 LLM MIT 模型安全
[自动] [BLOGS_PODCASTS]	2min	mic 麻省理工学院新方法根除漏洞并提升大语言模型安全性 02-20 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]	2min	mic MIT新方法根除漏洞并提升大语言模型安全性与性能 02-20 MIT LLM 模型安全
[自动] [ARXIV]	3min	school 机器遗忘中保护未删除数据隐私的方法 02-20 机器遗忘隐私保护重构攻击
[自动] [HACKER_NEWS]	4min	newspaper 不要盲目信任盐值：AI摘要、多语言安全与大模型护栏 02-20 LLM 安全护栏 AI摘要
[自动] [ARXIV]	3min	school 机器遗忘中保护未删除数据的隐私防御机制 02-19 机器遗忘隐私保护重构攻击
[自动] [BLOGS_PODCASTS]	2min	mic MIT新方法根除漏洞并提升大语言模型安全性与性能 02-19 MIT LLM 模型安全
[自动] [HACKER_NEWS]	3min	newspaper 不要盲目信任盐值：AI摘要、多语言安全与大模型防护机制 02-19 LLM AI安全防护机制
[自动] [HACKER_NEWS]	4min	newspaper 警惕AI总结幻觉：多语言安全与大模型防护机制 02-19 LLM 幻觉安全防护
[自动] [BLOGS_PODCASTS]	2min	mic 个性化功能可能导致大语言模型迎合用户观点形成回声室 02-19 LLM 个性化回声室
[自动] [BLOGS_PODCASTS]	3min	mic Goodfire AI：打造可落地机械可解释性与企业级部署工作流 02-10 Goodfire AI 机械可解释性 Mechanistic Interpretability
[自动] [ARXIV]	3min	school 大模型涌现性错位易修复，窄错位难修正 02-10 LLM 对齐微调
[自动] [BLOGS_PODCASTS]	2min	mic Goodfire AI：打造首个机制可解释性实验室与生产级工作流 02-08 Goodfire AI 机制可解释性 Mechanistic Interpretability
[自动] [HACKER_NEWS]	4min	newspaper 评估与缓解大模型发现的零日漏洞风险 02-07 LLM 零日漏洞漏洞挖掘
[自动] [HACKER_NEWS]	3min	newspaper 心理越狱揭示前沿模型内部冲突 02-06 越狱心理测量前沿模型
[自动] [HACKER_NEWS]	3min	newspaper 心理越狱揭示前沿模型的内部冲突 02-05 越狱心理测量前沿模型
[自动] [HACKER_NEWS]	3min	newspaper 心理越狱揭示前沿模型内部冲突 02-05 越狱心理测量前沿模型
[自动] [HACKER_NEWS]	3min	newspaper 心理越狱揭示前沿模型内部冲突 02-05 越狱心理测量前沿模型
[自动] [ARXIV]	3min	school 基于输出监督学习的思维链混淆技术可泛化至未见任务 02-02 思维链 CoT 输出监督