目录
模型安全
条目:38
2026年二月
38 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 4min | newspaper
逆向工程挑战:解析神经网络架构与参数 02-27
逆向工程
神经网络
模型安全 |
[自动]
[HACKER_NEWS] | 4min | newspaper
逆向工程神经网络:技术挑战与防御机制解析 02-27
模型提取
逆向工程
模型安全 |
[自动]
[HACKER_NEWS] | 4min | newspaper
逆向工程挑战:解析该神经网络架构 02-27
神经网络
逆向工程
模型架构 |
[自动]
[HACKER_NEWS] | 4min | newspaper
逆向工程挑战:能否破解我们的神经网络架构 02-27
逆向工程
神经网络
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Anthropic 模型蒸馏与 SWE-Bench 作弊机制分析 02-27
模型蒸馏
SWE-bench
奖励黑客 |
[自动]
[ARXIV] | 4min | school
现成图像模型可攻破图像保护方案 02-27
图像保护
对抗攻击
Stable Diffusion |
[自动]
[HACKER_NEWS] | 4min | newspaper
Anthropic 放弃核心安全承诺,不再发布高风险模型 02-26
Anthropic
模型安全
AI治理 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Anthropic 放弃旗舰产品安全承诺 02-25
Anthropic
Claude
安全承诺 |
[自动]
[ARXIV] | 4min | school
VAUQ:面向LVLM自评估的视觉感知不确定性量化 02-25
LVLM
多模态
不确定性量化 |
[自动]
[HACKER_NEWS] | 3min | newspaper
Anthropic 撤销旗舰级安全承诺,不再遵守自愿安全准则 02-25
Anthropic
安全承诺
AI治理 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法根除漏洞并提升大语言模型安全性与性能 02-23
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法根除漏洞并提升大语言模型安全性与性能 02-23
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法根除漏洞并提升大语言模型安全性与性能 02-23
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法揭示大模型隐藏偏差并提升安全性 02-23
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
麻省理工学院新方法根除漏洞提升大模型安全性与性能 02-22
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法根除漏洞并提升LLM安全性与性能 02-21
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
麻省理工学院新方法提升大语言模型安全性与性能 02-21
MIT
LLM
可解释性 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法根除漏洞并提升大语言模型安全性与性能 02-20
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
麻省理工学院新方法根除漏洞并提升大模型安全性与性能 02-20
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法根除漏洞并提升大语言模型安全性与性能 02-20
LLM
MIT
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
麻省理工学院新方法根除漏洞并提升大语言模型安全性 02-20
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法根除漏洞并提升大语言模型安全性与性能 02-20
MIT
LLM
模型安全 |
[自动]
[ARXIV] | 3min | school
机器遗忘中保护未删除数据隐私的方法 02-20
机器遗忘
隐私保护
重构攻击 |
[自动]
[HACKER_NEWS] | 4min | newspaper
不要盲目信任盐值:AI摘要、多语言安全与大模型护栏 02-20
LLM
安全护栏
AI摘要 |
[自动]
[ARXIV] | 3min | school
机器遗忘中保护未删除数据的隐私防御机制 02-19
机器遗忘
隐私保护
重构攻击 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法根除漏洞并提升大语言模型安全性与性能 02-19
MIT
LLM
模型安全 |
[自动]
[HACKER_NEWS] | 3min | newspaper
不要盲目信任盐值:AI摘要、多语言安全与大模型防护机制 02-19
LLM
AI安全
防护机制 |
[自动]
[HACKER_NEWS] | 4min | newspaper
警惕AI总结幻觉:多语言安全与大模型防护机制 02-19
LLM
幻觉
安全防护 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
个性化功能可能导致大语言模型迎合用户观点形成回声室 02-19
LLM
个性化
回声室 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Goodfire AI:打造可落地机械可解释性与企业级部署工作流 02-10
Goodfire AI
机械可解释性
Mechanistic Interpretability |
[自动]
[ARXIV] | 3min | school
大模型涌现性错位易修复,窄错位难修正 02-10
LLM
对齐
微调 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Goodfire AI:打造首个机制可解释性实验室与生产级工作流 02-08
Goodfire AI
机制可解释性
Mechanistic Interpretability |
[自动]
[HACKER_NEWS] | 4min | newspaper
评估与缓解大模型发现的零日漏洞风险 02-07
LLM
零日漏洞
漏洞挖掘 |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型内部冲突 02-06
越狱
心理测量
前沿模型 |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型的内部冲突 02-05
越狱
心理测量
前沿模型 |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型内部冲突 02-05
越狱
心理测量
前沿模型 |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型内部冲突 02-05
越狱
心理测量
前沿模型 |
[自动]
[ARXIV] | 3min | school
基于输出监督学习的思维链混淆技术可泛化至未见任务 02-02
思维链
CoT
输出监督 |
无匹配条目