目录
越狱
条目:15
2026年三月
4 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 3min | school
审查大模型作为秘密知识提取的自然测试床 03-09
大模型安全
知识提取
审查机制 |
[自动]
[ARXIV] | 2min | school
审查大模型作为秘密知识提取的自然测试床 03-08
审查
知识提取
越狱 |
[自动]
[ARXIV] | 3min | school
审查版大模型作为秘密知识提取的自然测试床 03-07
大模型安全
对齐攻击
知识提取 |
[自动]
[ARXIV] | 3min | school
审查大模型作为秘密知识提取的自然测试床 03-06
大模型安全
知识提取
对齐攻击 |
2026年二月
11 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
Skill-Inject:评估智能体技能文件攻击漏洞 02-24
LLM Agents
Prompt Injection
Skill-Inject |
[自动]
[ARXIV] | 1min | school
Moltbook 漏洞:自进化 AI 社会中 Anthropic 安全机制失效 02-11
Anthropic
AI安全
对齐 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Frontier AI agents violate ethical constraints 30–50% o 02-10
AI Agent
对齐
伦理 |
[自动]
[HACKER_NEWS] | 3min | newspaper
Frontier AI agents violate ethical constraints 30–50% o 02-10
AI Agents
伦理约束
对齐 |
[自动]
[HACKER_NEWS] | 4min | newspaper
从通讯软件智能体中提取数据的方法 02-09
智能体
数据泄露
通讯软件 |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型内部冲突 02-06
越狱
心理测量
前沿模型 |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型的内部冲突 02-05
越狱
心理测量
前沿模型 |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型内部冲突 02-05
越狱
心理攻击
模型对齐 |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型内部冲突 02-05
越狱
心理测量
前沿模型 |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型内部冲突 02-05
越狱
心理测量
前沿模型 |
[自动]
[ARXIV] | 3min | school
大语言模型中角色作为潜变量:机制视角下的错位与安全失效 02-02
LLM
对齐
角色扮演 |
无匹配条目