terminal

AI Stack

rss_feed
SYS_STABLE
目录

越狱

条目:11
2026年二月 11 篇
类型阅读条目
[自动] [ARXIV]
4minschool Skill-Inject:评估智能体技能文件攻击漏洞
02-24 LLM Agents Prompt Injection Skill-Inject
[自动] [ARXIV]
1minschool Moltbook 漏洞:自进化 AI 社会中 Anthropic 安全机制失效
02-11 Anthropic AI安全 对齐
[自动] [HACKER_NEWS]
4minnewspaper Frontier AI agents violate ethical constraints 30–50% o
02-10 AI Agent 对齐 伦理
[自动] [HACKER_NEWS]
3minnewspaper Frontier AI agents violate ethical constraints 30–50% o
02-10 AI Agents 伦理约束 对齐
[自动] [HACKER_NEWS]
4minnewspaper 从通讯软件智能体中提取数据的方法
02-09 智能体 数据泄露 通讯软件
[自动] [HACKER_NEWS]
3minnewspaper 心理越狱揭示前沿模型内部冲突
02-06 越狱 心理测量 前沿模型
[自动] [HACKER_NEWS]
3minnewspaper 心理越狱揭示前沿模型的内部冲突
02-05 越狱 心理测量 前沿模型
[自动] [HACKER_NEWS]
3minnewspaper 心理越狱揭示前沿模型内部冲突
02-05 越狱 心理攻击 模型对齐
[自动] [HACKER_NEWS]
3minnewspaper 心理越狱揭示前沿模型内部冲突
02-05 越狱 心理测量 前沿模型
[自动] [HACKER_NEWS]
3minnewspaper 心理越狱揭示前沿模型内部冲突
02-05 越狱 心理测量 前沿模型
[自动] [ARXIV]
3minschool 大语言模型中角色作为潜变量:机制视角下的错位与安全失效
02-02 LLM 对齐 角色扮演