目录
越狱
条目:11
2026年二月
11 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
Skill-Inject:评估智能体技能文件攻击漏洞 02-24
LLM Agents
Prompt Injection
Skill-Inject |
[自动]
[ARXIV] | 1min | school
Moltbook 漏洞:自进化 AI 社会中 Anthropic 安全机制失效 02-11
Anthropic
AI安全
对齐 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Frontier AI agents violate ethical constraints 30–50% o 02-10
AI Agent
对齐
伦理 |
[自动]
[HACKER_NEWS] | 3min | newspaper
Frontier AI agents violate ethical constraints 30–50% o 02-10
AI Agents
伦理约束
对齐 |
[自动]
[HACKER_NEWS] | 4min | newspaper
从通讯软件智能体中提取数据的方法 02-09
智能体
数据泄露
通讯软件 |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型内部冲突 02-06
越狱
心理测量
前沿模型 |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型的内部冲突 02-05
越狱
心理测量
前沿模型 |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型内部冲突 02-05
越狱
心理攻击
模型对齐 |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型内部冲突 02-05
越狱
心理测量
前沿模型 |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型内部冲突 02-05
越狱
心理测量
前沿模型 |
[自动]
[ARXIV] | 3min | school
大语言模型中角色作为潜变量:机制视角下的错位与安全失效 02-02
LLM
对齐
角色扮演 |
无匹配条目