terminal

AI Stack

rss_feed
SYS_STABLE
目录

AI安全

条目:120
2026年三月 1 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
2minmic METR Joel Becker谈指数级时间视野评估与AI生产力极限
03-01 AI评估 METR 时间视野
2026年二月 111 篇
类型阅读条目
[自动] [HACKER_NEWS]
4minnewspaper 不要信任AI智能体
02-28 AI智能体 安全风险 信任机制
[自动] [HACKER_NEWS]
4minnewspaper 不要信任 AI 智能体
02-28 AI智能体 安全风险 信任机制
[自动] [HACKER_NEWS]
4minnewspaper 逆向工程挑战:解析神经网络架构与参数
02-27 逆向工程 神经网络 模型安全
[自动] [BLOGS_PODCASTS]
3minmic Anthropic蒸馏与模型作弊机制:SWE-Bench失效分析
02-27 Anthropic 模型蒸馏 宪法AI
[自动] [HACKER_NEWS]
3minnewspaper 谷歌员工效仿Anthropic,要求制定军事AI红线
02-27 谷歌 Anthropic 军事AI
[自动] [HACKER_NEWS]
4minnewspaper 谷歌员工效仿Anthropic,要求为军事AI设定红线
02-27 谷歌 军事AI Anthropic
[自动] [ARXIV]
2minschool 缓解可读性代价:基于解耦证明者-验证者博弈的方法
02-27 LLM 可解释性 模型评估
[自动] [HACKER_NEWS]
4minnewspaper 用概念代数引导可解释的语言模型
02-26 可解释性 概念代数 模型控制
[自动] [HACKER_NEWS]
4minnewspaper Anthropic 放弃其核心安全承诺
02-26 Anthropic AI安全 对齐
[自动] [HACKER_NEWS]
4minnewspaper Anthropic 放弃核心安全承诺
02-26 Anthropic AI安全 大模型
[自动] [BLOGS_PODCASTS]
2minmic 2026年2月威胁报告:AI模型与社交平台结合的恶意利用及防御
02-26 威胁报告 恶意利用 AI安全
[自动] [HACKER_NEWS]
4minnewspaper Anthropic 放弃其核心安全承诺
02-26 Anthropic AI安全 对齐
[自动] [HACKER_NEWS]
4minnewspaper 利用大语言模型实现大规模在线去匿名化
02-26 LLM 去匿名化 隐私攻击
[自动] [HACKER_NEWS]
3minnewspaper 利用大语言模型实现大规模在线去匿名化
02-26 LLM 去匿名化 隐私攻击
[自动] [BLOGS_PODCASTS]
2minmic 2026年2月威胁报告:AI模型结合网站与社交平台的恶意利用及防御
02-26 威胁报告 恶意利用 AI安全
[自动] [BLOGS_PODCASTS]
2minmic 2026年2月威胁报告:AI模型结合网站与社交平台的恶意利用及防御
02-26 威胁报告 AI安全 恶意利用
[自动] [HACKER_NEWS]
4minnewspaper 利用大语言模型实现大规模在线去匿名化
02-26 去匿名化 隐私攻击 LLM
[自动] [BLOGS_PODCASTS]
3minmic 2026年2月威胁报告:AI模型结合社交平台的恶意利用及防御
02-26 威胁报告 恶意利用 AI安全
[自动] [HACKER_NEWS]
3minnewspaper 基于LLM的大规模在线去匿名化研究
02-26 LLM 去匿名化 隐私攻击
[自动] [BLOGS_PODCASTS]
3minmic 2026年2月威胁报告:AI模型结合网站与社交平台的恶意利用及防御
02-25 威胁报告 恶意利用 AI安全
[自动] [HACKER_NEWS]
3minnewspaper 利用大语言模型实现大规模在线去匿名化
02-25 LLM 去匿名化 隐私安全
[自动] [BLOGS_PODCASTS]
2minmic 2026年2月威胁报告:AI模型结合社交平台的恶意利用与防御
02-25 威胁报告 恶意利用 社交平台
[自动] [BLOGS_PODCASTS]
2minmic Anthropic指控DeepSeek等遭超1600万次工业级蒸馏攻击
02-25 Anthropic DeepSeek 模型蒸馏
[自动] [BLOGS_PODCASTS]
2minmic 2026年2月威胁报告:AI模型结合网站与社交平台的恶意利用及防御
02-25 威胁报告 AI安全 恶意利用
[自动] [BLOGS_PODCASTS]
2minmic 2026年2月威胁报告:AI模型结合网站与社交平台的恶意利用及防御
02-25 威胁报告 恶意利用 AI安全
[自动] [HACKER_NEWS]
4minnewspaper Anthropic 撤销旗舰产品安全承诺
02-25 Anthropic Claude 安全承诺
[自动] [HACKER_NEWS]
4minnewspaper Anthropic 放弃旗舰安全承诺,不再遵守 AI 安全准则
02-25 Anthropic AI安全 负责任AI
[自动] [ARXIV]
4minschool Skill-Inject:评估智能体技能文件攻击漏洞
02-24 LLM Agents Prompt Injection Skill-Inject
[自动] [BLOGS_PODCASTS]
2minmic OpenAI 成立前沿联盟,助力企业实现智能体规模化生产部署
02-24 OpenAI 智能体 企业部署
[自动] [HACKER_NEWS]
6minnewspaper Steerling-8B:可解释自身生成任一 token 的语言模型
02-24 Steerling-8B 可解释性 LLM
[自动] [HACKER_NEWS]
3minnewspaper Steerling-8B:可解释自身生成任一 Token 的语言模型
02-24 Steerling-8B 可解释性 LLM
[自动] [HACKER_NEWS]
4minnewspaper 53款模型“洗车”测试
02-24 模型评估 基准测试 LLM
[自动] [HACKER_NEWS]
5minnewspaper Steerling-8B:可解释自身生成任一 Token 的语言模型
02-24 Steerling-8B 可解释性 LLM
[自动] [BLOGS_PODCASTS]
3minmic OpenAI成立前沿联盟:助企业安全部署AI智能体落地生产
02-24 OpenAI 智能体 AI部署
[自动] [HACKER_NEWS]
3minnewspaper 53款模型“洗车”测试:评估多模态AI在物理场景中的表现
02-24 多模态 物理场景 模型评估
[自动] [HACKER_NEWS]
4minnewspaper Steerling-8B:可解释自身生成任一 Token 的语言模型
02-24 Steerling-8B 可解释性 LLM
[自动] [HACKER_NEWS]
4minnewspaper Steerling-8B:可解释自身生成任一 Token 的语言模型
02-24 Steerling-8B 可解释性 LLM
[自动] [HACKER_NEWS]
4minnewspaper 53 款模型参与“洗车”基准测试
02-23 基准测试 模型评估 LLM
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法根除漏洞并提升大语言模型安全性与性能
02-23 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法根除漏洞并提升大语言模型安全性与性能
02-23 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法揭示大模型隐藏偏差并提升安全性
02-23 MIT LLM 模型安全
[自动] [HACKER_NEWS]
4minnewspaper 人类信任根:面向智能体问责的公共领域框架
02-22 智能体 问责制 信任根
[自动] [HACKER_NEWS]
4minnewspaper 大语言模型推理失败机制分析
02-21 LLM 推理 逻辑错误
[自动] [BLOGS_PODCASTS]
2minmic OpenAI 投入 750 万美元资助独立 AI 对齐研究
02-20 OpenAI AI对齐 AGI安全
[自动] [BLOGS_PODCASTS]
2minmic Anthropic 发布自主智能体 METR 基准测试数据
02-20 Anthropic 智能体 Agent
[自动] [BLOGS_PODCASTS]
2minmic OpenAI 投入 750 万美元资助独立 AI 对齐研究
02-20 OpenAI AI对齐 AGI安全
[自动] [BLOGS_PODCASTS]
2minmic Anthropic 发布自主智能体 METR 基准测试数据
02-20 Anthropic METR 自主智能体
[自动] [BLOGS_PODCASTS]
2minmic 麻省理工学院新方法根除漏洞并提升大语言模型安全性
02-20 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]
3minmic Anthropic发布基于METR数据的Agent自主性研究
02-20 Anthropic Agent 自主性
[自动] [HACKER_NEWS]
4minnewspaper AI智能体自主性水平的实践评估方法
02-20 AI Agent 自主性 评估方法
[自动] [BLOGS_PODCASTS]
3minmic Anthropic发布Agent自主性研究及METR数据
02-19 Anthropic Agent 自主性
[自动] [HACKER_NEWS]
3minnewspaper 不要盲目信任盐值:AI摘要、多语言安全与大模型防护机制
02-19 LLM AI安全 防护机制
[自动] [BLOGS_PODCASTS]
2minmic 理性人无目标论:AI对齐应基于实践协调而非终极目的
02-19 AI对齐 正交性论题 美德伦理
[自动] [HACKER_NEWS]
4minnewspaper 不要盲目信任Salt:AI摘要、多语言安全与LLM护栏
02-19 LLM AI安全 护栏
[自动] [BLOGS_PODCASTS]
2minmic OpenAI出资750万美元资助独立AI对齐研究
02-19 OpenAI AI对齐 AGI安全
[自动] [HACKER_NEWS]
4minnewspaper 不要轻信盐值:AI摘要、多语言安全与大模型防护机制
02-19 LLM AI安全 提示词注入
[自动] [BLOGS_PODCASTS]
3minmic Anthropic发布Agent自主性研究及METR数据
02-19 Anthropic Agent 自主性
[自动] [BLOGS_PODCASTS]
2minmic 美德伦理在AI对齐中的有效性
02-19 AI对齐 美德伦理 AI安全
[自动] [BLOGS_PODCASTS]
2minmic 长期对话语境下LLM观点映射与回声室效应
02-19 LLM 个性化 回声室效应
[自动] [BLOGS_PODCASTS]
2minmic 2026年负责任人工智能进展报告
02-19 负责任AI AI安全 伦理
[自动] [BLOGS_PODCASTS]
2minmic 2026年度负责任人工智能进展报告
02-19 负责任AI AI安全 伦理
[自动] [BLOGS_PODCASTS]
2minmic 2026年度负责任人工智能进展报告
02-19 负责任AI Responsible AI AI安全
[自动] [BLOGS_PODCASTS]
2minmic 2026年负责任人工智能进展报告
02-18 负责任AI AI伦理 AI安全
[自动] [BLOGS_PODCASTS]
4minmic ChatGPT 推出锁定模式与高风险标签以防御提示注入
02-18 ChatGPT OpenAI 提示注入
[自动] [BLOGS_PODCASTS]
2minmic 长期对话语境导致LLM迎合用户观点形成回声室
02-18 LLM 个性化 回声室
[自动] [BLOGS_PODCASTS]
3minmic ChatGPT推出锁定模式与高风险标签,防范提示词注入及数据外泄
02-18 ChatGPT 提示词注入 数据安全
[自动] [BLOGS_PODCASTS]
2minmic 2026年负责任AI进展报告
02-18 负责任AI Responsible AI AI伦理
[自动] [BLOGS_PODCASTS]
2minmic 长期对话导致LLM模仿用户观点并形成回声室
02-18 LLM 个性化 回声室
[自动] [BLOGS_PODCASTS]
2minmic ChatGPT推出锁定模式与高风险标签以抵御提示注入
02-18 ChatGPT 提示注入 锁定模式
[自动] [BLOGS_PODCASTS]
2minmic 2026年度负责任人工智能进展报告
02-18 负责任AI AI治理 合规
[自动] [BLOGS_PODCASTS]
2minmic ChatGPT 推出锁定模式与高风险标签防御提示注入
02-18 ChatGPT 企业安全 提示注入
[自动] [BLOGS_PODCASTS]
2minmic 2026年度负责任人工智能进展报告
02-18 负责任AI AI安全 模型治理
[自动] [BLOGS_PODCASTS]
2minmic ChatGPT 推出锁定模式与高风险标签以防御提示词注入
02-17 ChatGPT 提示词注入 锁定模式
[自动] [ARXIV]
3minschool 恶意提示词分类器在真实分布偏移下的评估方法
02-17 LLM安全 提示词注入 越狱攻击
[自动] [BLOGS_PODCASTS]
2minmic ChatGPT 推出锁定模式与高风险标签以防御提示注入
02-17 ChatGPT 提示注入 锁定模式
[自动] [BLOGS_PODCASTS]
3minmic ChatGPT推出锁定模式与高风险标签防御提示词注入
02-16 ChatGPT OpenAI 提示词注入
[自动] [BLOGS_PODCASTS]
2minmic ChatGPT推出锁定模式与高风险标签以防御提示注入
02-16 ChatGPT 提示注入 锁定模式
[自动] [HACKER_NEWS]
4minnewspaper 电台主播指控谷歌NotebookLM语音克隆功能窃取其声音
02-16 NotebookLM 谷歌 语音克隆
[自动] [BLOGS_PODCASTS]
2minmic ChatGPT 推出锁定模式与高风险标签以抵御提示注入
02-15 ChatGPT 提示注入 锁定模式
[自动] [BLOGS_PODCASTS]
2minmic ChatGPT 推出锁定模式与高风险标签防御提示词注入
02-15 ChatGPT 提示词注入 锁定模式
[自动] [BLOGS_PODCASTS]
2minmic ChatGPT 推出锁定模式与高风险标签,防御提示注入及数据外泄
02-14 ChatGPT 提示注入 数据安全
[自动] [BLOGS_PODCASTS]
3minmic ChatGPT推出锁定模式与高危标签以防范提示词注入及数据外泄
02-14 ChatGPT 提示词注入 数据安全
[自动] [BLOGS_PODCASTS]
3minmic ChatGPT 推出锁定模式与高风险标签防御提示词注入
02-14 ChatGPT 提示词注入 Prompt Injection
[自动] [HACKER_NEWS]
4minnewspaper OpenAI 使命声明演变:从通用人工智能到造福人类
02-14 OpenAI 使命声明 AGI
[自动] [BLOGS_PODCASTS]
2minmic ChatGPT推出锁定模式与高风险标签防御提示词注入
02-13 ChatGPT OpenAI 提示词注入
[自动] [BLOGS_PODCASTS]
2minmic ChatGPT推出锁定模式与高风险标记以防御提示词注入
02-13 ChatGPT 提示词注入 企业安全
[自动] [HACKER_NEWS]
3minnewspaper 评估多语言上下文护栏:人道主义大模型应用
02-13 LLM 护栏 多语言
[自动] [HACKER_NEWS]
3minnewspaper 尼克·博斯特罗姆新论文探讨超级智能的启动时机
02-13 超级智能 尼克·博斯特罗姆 AI安全
[自动] [BLOGS_PODCASTS]
2minmic OpenEnv实践:评估真实环境中的工具调用智能体
02-13 智能体 工具调用 OpenEnv
[自动] [HACKER_NEWS]
3minnewspaper 评估多语言上下文护栏:人道主义LLM用例
02-13 LLM 护栏 多语言
[自动] [HACKER_NEWS]
3minnewspaper 大语言模型面临的幻觉与逻辑推理局限
02-12 LLM 幻觉 逻辑推理
[自动] [HACKER_NEWS]
4minnewspaper 大语言模型在逻辑推理与事实准确性上的局限
02-12 LLM 逻辑推理 事实准确性
[自动] [ARXIV]
3minschool LLM盲区偏差检测:识别模型未提及内容
02-11 LLM 偏见检测 模型评估
[自动] [BLOGS_PODCASTS]
1minmic Automated Reasoning checks rewriting chatbot reference
02-11 自动化推理 聊天机器人 参考实现
[自动] [ARXIV]
1minschool Moltbook 漏洞:自进化 AI 社会中 Anthropic 安全机制失效
02-11 Anthropic AI安全 对齐
[自动] [BLOGS_PODCASTS]
2minmic OpenAI在GenAI.mil部署定制版ChatGPT以服务美国防务团队
02-10 OpenAI ChatGPT GenAI.mil
[自动] [BLOGS_PODCASTS]
2minmic OpenAI在GenAI.mil部署定制ChatGPT服务美国国防团队
02-10 OpenAI ChatGPT GenAI.mil
[自动] [BLOGS_PODCASTS]
3minmic Goodfire AI:打造首个机制可解释性实验室与企业级API
02-10 Goodfire AI 机制可解释性 Mechanistic Interpretability
[自动] [HACKER_NEWS]
4minnewspaper 基于人类反馈的强化学习:原理与应用
02-07 RLHF 强化学习 人类反馈
[自动] [HACKER_NEWS]
5minnewspaper 让信任变得无关紧要:玩家视角下的智能体安全
02-07 智能体 Agent安全 游戏理论
[自动] [BLOGS_PODCASTS]
3minmic 首个机制可解释性前沿实验室:Goodfire AI 团队专访
02-07 机制可解释性 Goodfire AI AI安全
[自动] [HACKER_NEWS]
4minnewspaper 评估与缓解大模型发现零日漏洞的新兴风险
02-07 LLM 零日漏洞 漏洞挖掘
[自动] [HACKER_NEWS]
4minnewspaper 评估与缓解大模型发现的零日漏洞风险
02-07 LLM 零日漏洞 漏洞挖掘
[自动] [ARXIV]
4minschool 研究揭示推理大模型生成虚假新闻的内在机制
02-06 LLM CoT 虚假新闻
[自动] [HACKER_NEWS]
3minnewspaper 心理越狱揭示前沿模型内部冲突
02-05 越狱 心理攻击 模型对齐
[自动] [HACKER_NEWS]
5minnewspaper Anthropic Claude Opus 4.6 挖掘开源代码500个零日漏洞
02-05 Anthropic Claude Opus 零日漏洞
[自动] [BLOGS_PODCASTS]
2minmic Sora Feed理念:个性化推荐与安全护栏构建
02-04 Sora 个性化推荐 内容安全
[自动] [HACKER_NEWS]
3minnewspaper 模型对齐偏差如何随智能水平与任务复杂度演变
02-03 模型对齐 智能水平 任务复杂度
[自动] [HACKER_NEWS]
4minnewspaper 模型智能与任务复杂度如何影响对齐偏差
02-03 对齐 模型智能 任务复杂度
[自动] [HACKER_NEWS]
4minnewspaper 模型对齐问题如何随智能水平与任务复杂度演变
02-03 模型对齐 智能水平 任务复杂度
[自动] [ARXIV]
5minschool RedSage:网络安全通用大语言模型
02-01 RedSage 网络安全 LLM
2026年一月 8 篇
类型阅读条目
[自动] [HACKER_NEWS]
4minnewspaper 发现逾17.5万个Ollama AI实例公网暴露
01-31 Ollama 数据泄露 公网暴露
[自动] [BLOGS_PODCASTS]
4minmic OpenAI 如何通过内置安全机制防范 AI 代理点击链接时的数据泄露与提示词注入
01-29 OpenAI AI代理 数据泄露
[自动] [BLOGS_PODCASTS]
2minmic EMEA青年与福祉资助金:50万欧元支持AI时代青年安全福祉研究
01-29 AI安全 青年福祉 NGO
[自动] [BLOGS_PODCASTS]
2minmic EMEA青年与健康资助计划开放申请,50万欧元支持AI时代青年安全研究
01-29 AI安全 青年健康 资助计划
[自动] [ARXIV]
4minschool 💥MortalMATH:当推理目标遇上紧急场景,AI会“翻车”吗?
01-28 LLM 推理模型 MortalMATH
[自动] [ARXIV]
4minschool MortalMATH:当推理目标遇上紧急语境,冲突何解?🧠🔥
01-27 LLM 模型评估 安全对齐
[自动] [HACKER_NEWS]
3minnewspaper 警惕!💀 软件拉高出货时代来临!韭菜收割机全揭秘!
01-27 金融欺诈 拉高出货 AI安全
[自动] [HACKER_NEWS]
3minnewspaper 🔍 深度拆解:AI伪造数学证明的惊人真相!🚀
01-26 LLM 幻觉 数学证明