terminal

AI Stack

rss_feed
SYS_STABLE
目录

模型安全

条目:54
2026年三月 16 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
2minmic LLM可解释性研究:特征归因与数据归因方法解析
03-17 LLM 可解释性 特征归因
[自动] [BLOGS_PODCASTS]
2minmic 面向大规模语言模型的交互识别与可解释性研究
03-17 LLM 可解释性 SPEX
[自动] [BLOGS_PODCASTS]
3minmic 面向大语言模型的大规模交互识别方法
03-17 LLM 可解释性 SPEX
[自动] [BLOGS_PODCASTS]
2minmic 面向大规模语言模型的交互识别与归因分析
03-16 LLM 可解释性 归因分析
[自动] [BLOGS_PODCASTS]
2minmic LLM可解释性研究:规模化场景下的交互识别方法
03-16 LLM 可解释性 SPEX
[自动] [BLOGS_PODCASTS]
2minmic 大规模识别LLM交互:提升可解释性与安全性的归因方法
03-15 LLM 可解释性 归因分析
[自动] [BLOGS_PODCASTS]
2minmic 识别大模型交互机制以提升可解释性与安全性
03-14 LLM 可解释性 SPEX
[自动] [BLOGS_PODCASTS]
2minmic IH-Challenge训练提升前沿大模型指令层级与防御能力
03-11 指令层级 IH-Challenge 提示注入
[自动] [BLOGS_PODCASTS]
2minmic IH-Challenge提升前沿大模型指令层级与安全性
03-11 IH-Challenge 指令层级 提示注入
[自动] [BLOGS_PODCASTS]
2minmic IH-Challenge训练提升前沿大模型指令层级与安全性
03-11 IH-Challenge 指令层级 提示注入
[自动] [BLOGS_PODCASTS]
2minmic IH-Challenge训练提升前沿大模型指令层级与抗攻击能力
03-10 IH-Challenge 指令层级 Prompt Injection
[自动] [BLOGS_PODCASTS]
2minmic IH-Challenge提升前沿大模型指令层级与抗攻击能力
03-10 LLM 指令层级 IH-Challenge
[自动] [BLOGS_PODCASTS]
2minmic 提升AI模型解释能力以增强安全关键应用可信度
03-09 可解释性 XAI 模型安全
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.4思维系统技术报告发布
03-07 GPT-5.4 OpenAI 思维链
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.4 Thinking 系统卡发布:技术架构与推理能力解析
03-06 GPT-5.4 Thinking 系统卡
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.3 Instant 系统卡发布:性能与安全机制详解
03-04 GPT-5.3 OpenAI 系统卡
2026年二月 38 篇
类型阅读条目
[自动] [HACKER_NEWS]
1minnewspaper 逆向工程挑战:解析神经网络架构与参数
02-27 逆向工程 神经网络 模型安全
[自动] [HACKER_NEWS]
1minnewspaper 逆向工程神经网络:技术挑战与防御机制解析
02-27 模型提取 逆向工程 模型安全
[自动] [HACKER_NEWS]
1minnewspaper 逆向工程挑战:解析该神经网络架构
02-27 神经网络 逆向工程 模型架构
[自动] [HACKER_NEWS]
1minnewspaper 逆向工程挑战:能否破解我们的神经网络架构
02-27 逆向工程 神经网络 模型安全
[自动] [BLOGS_PODCASTS]
2minmic Anthropic 模型蒸馏与 SWE-Bench 作弊机制分析
02-27 模型蒸馏 SWE-bench 奖励黑客
[自动] [ARXIV]
3minschool 现成图像模型可攻破图像保护方案
02-27 图像保护 对抗攻击 Stable Diffusion
[自动] [HACKER_NEWS]
3minnewspaper Anthropic 放弃核心安全承诺,不再发布高风险模型
02-26 Anthropic 模型安全 AI治理
[自动] [HACKER_NEWS]
1minnewspaper Anthropic 放弃旗舰产品安全承诺
02-25 Anthropic Claude 安全承诺
[自动] [ARXIV]
3minschool VAUQ:面向LVLM自评估的视觉感知不确定性量化
02-25 LVLM 多模态 不确定性量化
[自动] [HACKER_NEWS]
1minnewspaper Anthropic 撤销旗舰级安全承诺,不再遵守自愿安全准则
02-25 Anthropic 安全承诺 AI治理
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法根除漏洞并提升大语言模型安全性与性能
02-23 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法根除漏洞并提升大语言模型安全性与性能
02-23 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法根除漏洞并提升大语言模型安全性与性能
02-23 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法揭示大模型隐藏偏差并提升安全性
02-23 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]
2minmic 麻省理工学院新方法根除漏洞提升大模型安全性与性能
02-22 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法根除漏洞并提升LLM安全性与性能
02-21 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]
2minmic 麻省理工学院新方法提升大语言模型安全性与性能
02-21 MIT LLM 可解释性
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法根除漏洞并提升大语言模型安全性与性能
02-20 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]
2minmic 麻省理工学院新方法根除漏洞并提升大模型安全性与性能
02-20 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法根除漏洞并提升大语言模型安全性与性能
02-20 LLM MIT 模型安全
[自动] [BLOGS_PODCASTS]
2minmic 麻省理工学院新方法根除漏洞并提升大语言模型安全性
02-20 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法根除漏洞并提升大语言模型安全性与性能
02-20 MIT LLM 模型安全
[自动] [ARXIV]
2minschool 机器遗忘中保护未删除数据隐私的方法
02-20 机器遗忘 隐私保护 重构攻击
[自动] [HACKER_NEWS]
1minnewspaper 不要盲目信任盐值:AI摘要、多语言安全与大模型护栏
02-20 LLM 安全护栏 AI摘要
[自动] [ARXIV]
2minschool 机器遗忘中保护未删除数据的隐私防御机制
02-19 机器遗忘 隐私保护 重构攻击
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法根除漏洞并提升大语言模型安全性与性能
02-19 MIT LLM 模型安全
[自动] [HACKER_NEWS]
1minnewspaper 不要盲目信任盐值:AI摘要、多语言安全与大模型防护机制
02-19 LLM AI安全 防护机制
[自动] [HACKER_NEWS]
1minnewspaper 警惕AI总结幻觉:多语言安全与大模型防护机制
02-19 LLM 幻觉 安全防护
[自动] [BLOGS_PODCASTS]
2minmic 个性化功能可能导致大语言模型迎合用户观点形成回声室
02-19 LLM 个性化 回声室
[自动] [BLOGS_PODCASTS]
3minmic Goodfire AI:打造可落地机械可解释性与企业级部署工作流
02-10 Goodfire AI 机械可解释性 Mechanistic Interpretability
[自动] [ARXIV]
3minschool 大模型涌现性错位易修复,窄错位难修正
02-10 LLM 对齐 微调
[自动] [BLOGS_PODCASTS]
2minmic Goodfire AI:打造首个机制可解释性实验室与生产级工作流
02-08 Goodfire AI 机制可解释性 Mechanistic Interpretability
[自动] [HACKER_NEWS]
4minnewspaper 评估与缓解大模型发现的零日漏洞风险
02-07 LLM 零日漏洞 漏洞挖掘
[自动] [HACKER_NEWS]
3minnewspaper 心理越狱揭示前沿模型内部冲突
02-06 越狱 心理测量 前沿模型
[自动] [HACKER_NEWS]
3minnewspaper 心理越狱揭示前沿模型的内部冲突
02-05 越狱 心理测量 前沿模型
[自动] [HACKER_NEWS]
3minnewspaper 心理越狱揭示前沿模型内部冲突
02-05 越狱 心理测量 前沿模型
[自动] [HACKER_NEWS]
3minnewspaper 心理越狱揭示前沿模型内部冲突
02-05 越狱 心理测量 前沿模型
[自动] [ARXIV]
3minschool 基于输出监督学习的思维链混淆技术可泛化至未见任务
02-02 思维链 CoT 输出监督