越狱

条目：11

2026年二月 11 篇

类型	阅读	条目
[自动] [ARXIV]	4min	school Skill-Inject：评估智能体技能文件攻击漏洞 02-24 LLM Agents Prompt Injection Skill-Inject
[自动] [ARXIV]	1min	school Moltbook 漏洞：自进化 AI 社会中 Anthropic 安全机制失效 02-11 Anthropic AI安全对齐
[自动] [HACKER_NEWS]	4min	newspaper Frontier AI agents violate ethical constraints 30–50% o 02-10 AI Agent 对齐伦理
[自动] [HACKER_NEWS]	3min	newspaper Frontier AI agents violate ethical constraints 30–50% o 02-10 AI Agents 伦理约束对齐
[自动] [HACKER_NEWS]	4min	newspaper 从通讯软件智能体中提取数据的方法 02-09 智能体数据泄露通讯软件
[自动] [HACKER_NEWS]	3min	newspaper 心理越狱揭示前沿模型内部冲突 02-06 越狱心理测量前沿模型
[自动] [HACKER_NEWS]	3min	newspaper 心理越狱揭示前沿模型的内部冲突 02-05 越狱心理测量前沿模型
[自动] [HACKER_NEWS]	3min	newspaper 心理越狱揭示前沿模型内部冲突 02-05 越狱心理攻击模型对齐
[自动] [HACKER_NEWS]	3min	newspaper 心理越狱揭示前沿模型内部冲突 02-05 越狱心理测量前沿模型
[自动] [HACKER_NEWS]	3min	newspaper 心理越狱揭示前沿模型内部冲突 02-05 越狱心理测量前沿模型
[自动] [ARXIV]	3min	school 大语言模型中角色作为潜变量：机制视角下的错位与安全失效 02-02 LLM 对齐角色扮演