目录
模型安全
条目:54
2026年三月
16 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 2min | mic
LLM可解释性研究:特征归因与数据归因方法解析 03-17
LLM
可解释性
特征归因 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
面向大规模语言模型的交互识别与可解释性研究 03-17
LLM
可解释性
SPEX |
[自动]
[BLOGS_PODCASTS] | 3min | mic
面向大语言模型的大规模交互识别方法 03-17
LLM
可解释性
SPEX |
[自动]
[BLOGS_PODCASTS] | 2min | mic
面向大规模语言模型的交互识别与归因分析 03-16
LLM
可解释性
归因分析 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
LLM可解释性研究:规模化场景下的交互识别方法 03-16
LLM
可解释性
SPEX |
[自动]
[BLOGS_PODCASTS] | 2min | mic
大规模识别LLM交互:提升可解释性与安全性的归因方法 03-15
LLM
可解释性
归因分析 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
识别大模型交互机制以提升可解释性与安全性 03-14
LLM
可解释性
SPEX |
[自动]
[BLOGS_PODCASTS] | 2min | mic
IH-Challenge训练提升前沿大模型指令层级与防御能力 03-11
指令层级
IH-Challenge
提示注入 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
IH-Challenge提升前沿大模型指令层级与安全性 03-11
IH-Challenge
指令层级
提示注入 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
IH-Challenge训练提升前沿大模型指令层级与安全性 03-11
IH-Challenge
指令层级
提示注入 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
IH-Challenge训练提升前沿大模型指令层级与抗攻击能力 03-10
IH-Challenge
指令层级
Prompt Injection |
[自动]
[BLOGS_PODCASTS] | 2min | mic
IH-Challenge提升前沿大模型指令层级与抗攻击能力 03-10
LLM
指令层级
IH-Challenge |
[自动]
[BLOGS_PODCASTS] | 2min | mic
提升AI模型解释能力以增强安全关键应用可信度 03-09
可解释性
XAI
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-5.4思维系统技术报告发布 03-07
GPT-5.4
OpenAI
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-5.4 Thinking 系统卡发布:技术架构与推理能力解析 03-06
GPT-5.4
Thinking
系统卡 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-5.3 Instant 系统卡发布:性能与安全机制详解 03-04
GPT-5.3
OpenAI
系统卡 |
2026年二月
38 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 1min | newspaper
逆向工程挑战:解析神经网络架构与参数 02-27
逆向工程
神经网络
模型安全 |
[自动]
[HACKER_NEWS] | 1min | newspaper
逆向工程神经网络:技术挑战与防御机制解析 02-27
模型提取
逆向工程
模型安全 |
[自动]
[HACKER_NEWS] | 1min | newspaper
逆向工程挑战:解析该神经网络架构 02-27
神经网络
逆向工程
模型架构 |
[自动]
[HACKER_NEWS] | 1min | newspaper
逆向工程挑战:能否破解我们的神经网络架构 02-27
逆向工程
神经网络
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Anthropic 模型蒸馏与 SWE-Bench 作弊机制分析 02-27
模型蒸馏
SWE-bench
奖励黑客 |
[自动]
[ARXIV] | 3min | school
现成图像模型可攻破图像保护方案 02-27
图像保护
对抗攻击
Stable Diffusion |
[自动]
[HACKER_NEWS] | 3min | newspaper
Anthropic 放弃核心安全承诺,不再发布高风险模型 02-26
Anthropic
模型安全
AI治理 |
[自动]
[HACKER_NEWS] | 1min | newspaper
Anthropic 放弃旗舰产品安全承诺 02-25
Anthropic
Claude
安全承诺 |
[自动]
[ARXIV] | 3min | school
VAUQ:面向LVLM自评估的视觉感知不确定性量化 02-25
LVLM
多模态
不确定性量化 |
[自动]
[HACKER_NEWS] | 1min | newspaper
Anthropic 撤销旗舰级安全承诺,不再遵守自愿安全准则 02-25
Anthropic
安全承诺
AI治理 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法根除漏洞并提升大语言模型安全性与性能 02-23
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法根除漏洞并提升大语言模型安全性与性能 02-23
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法根除漏洞并提升大语言模型安全性与性能 02-23
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法揭示大模型隐藏偏差并提升安全性 02-23
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
麻省理工学院新方法根除漏洞提升大模型安全性与性能 02-22
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法根除漏洞并提升LLM安全性与性能 02-21
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
麻省理工学院新方法提升大语言模型安全性与性能 02-21
MIT
LLM
可解释性 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法根除漏洞并提升大语言模型安全性与性能 02-20
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
麻省理工学院新方法根除漏洞并提升大模型安全性与性能 02-20
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法根除漏洞并提升大语言模型安全性与性能 02-20
LLM
MIT
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
麻省理工学院新方法根除漏洞并提升大语言模型安全性 02-20
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法根除漏洞并提升大语言模型安全性与性能 02-20
MIT
LLM
模型安全 |
[自动]
[ARXIV] | 2min | school
机器遗忘中保护未删除数据隐私的方法 02-20
机器遗忘
隐私保护
重构攻击 |
[自动]
[HACKER_NEWS] | 1min | newspaper
不要盲目信任盐值:AI摘要、多语言安全与大模型护栏 02-20
LLM
安全护栏
AI摘要 |
[自动]
[ARXIV] | 2min | school
机器遗忘中保护未删除数据的隐私防御机制 02-19
机器遗忘
隐私保护
重构攻击 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法根除漏洞并提升大语言模型安全性与性能 02-19
MIT
LLM
模型安全 |
[自动]
[HACKER_NEWS] | 1min | newspaper
不要盲目信任盐值:AI摘要、多语言安全与大模型防护机制 02-19
LLM
AI安全
防护机制 |
[自动]
[HACKER_NEWS] | 1min | newspaper
警惕AI总结幻觉:多语言安全与大模型防护机制 02-19
LLM
幻觉
安全防护 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
个性化功能可能导致大语言模型迎合用户观点形成回声室 02-19
LLM
个性化
回声室 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Goodfire AI:打造可落地机械可解释性与企业级部署工作流 02-10
Goodfire AI
机械可解释性
Mechanistic Interpretability |
[自动]
[ARXIV] | 3min | school
大模型涌现性错位易修复,窄错位难修正 02-10
LLM
对齐
微调 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Goodfire AI:打造首个机制可解释性实验室与生产级工作流 02-08
Goodfire AI
机制可解释性
Mechanistic Interpretability |
[自动]
[HACKER_NEWS] | 4min | newspaper
评估与缓解大模型发现的零日漏洞风险 02-07
LLM
零日漏洞
漏洞挖掘 |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型内部冲突 02-06
越狱
心理测量
前沿模型 |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型的内部冲突 02-05
越狱
心理测量
前沿模型 |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型内部冲突 02-05
越狱
心理测量
前沿模型 |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型内部冲突 02-05
越狱
心理测量
前沿模型 |
[自动]
[ARXIV] | 3min | school
基于输出监督学习的思维链混淆技术可泛化至未见任务 02-02
思维链
CoT
输出监督 |
无匹配条目