AI安全

条目：194

2026年五月 3 篇

类型	阅读	条目
[自动] [BLOGS_PODCASTS]	1min	mic OpenAI扩大Rosalind生物防御AI可信访问范围 05-29 OpenAI GPT-Rosalind 生物防御
[自动] [BLOGS_PODCASTS]	1min	mic CyberSecQwen-4B：小型专业本地模型满足防御性网络安全需求 05-08 小型模型网络安全本地部署
[自动] [BLOGS_PODCASTS]	1min	mic Codex主知识Claude主创意：AI代理能力边界与管控挑战 05-01 AI代理 Codex Claude

2026年四月 8 篇

类型	阅读	条目
[自动] [HACKER_NEWS]	1min	newspaper Google投资Anthropic至多400亿美元，含现金及算力 04-24 谷歌 Anthropic 投资
[自动] [HACKER_NEWS]	1min	newspaper Gas Town被质疑窃取用户LLM用量进行自我优化 04-15 GasTown LLM滥用用户隐私
[自动] [HACKER_NEWS]	1min	newspaper 小模型复现Mythos漏洞检测成果 04-12 小模型漏洞检测 Mythos
[自动] [HACKER_NEWS]	1min	newspaper 小型模型复现Mythos漏洞检测能力 04-11 漏洞检测小型模型 Mythos
[自动] [BLOGS_PODCASTS]	2min	mic Anthropic估值达$30B 新模型因太危险无法发布 04-08 Anthropic Claude GlassWing
[自动] [HACKER_NEWS]	1min	newspaper Project Glasswing：AI时代关键软件安全方案 04-08 AI安全关键软件 Glasswing
[自动] [HACKER_NEWS]	1min	newspaper 玻璃翼项目：保护AI时代关键软件 04-07 玻璃翼 AI安全关键软件
[自动] [JUEJIN]	1min	sticky_note_2 Claude Code源码泄漏：AI编程助手的安全启示 04-05 Claude Code 源码泄漏 AI安全

2026年三月 64 篇

类型	阅读	条目
[自动] [BLOGS_PODCASTS]	2min	mic OpenAI思维链监控：检测内部编码智能体对齐失败 03-20 思维链监控对齐失败 AI安全
[自动] [BLOGS_PODCASTS]	2min	mic 新指标识别AI模型过度自信降低幻觉风险 03-19 过度自信不确定性量化幻觉检测
[自动] [ARXIV]	3min	school 反事实解释指标与用户感知的一致性研究 03-18 XAI 反事实解释模型评估
[自动] [ARXIV]	3min	school 大语言模型道德冷漠现象的机制起源研究 03-17 对齐 AI安全道德推理
[自动] [ARXIV]	3min	school 反事实解释指标与用户感知的一致性研究 03-17 可解释性反事实解释用户感知
[自动] [HACKER_NEWS]	1min	newspaper Agent Skills：面向智能体的开放安全数据库 03-16 Agent 智能体安全数据库
[自动] [BLOGS_PODCASTS]	4min	mic 利用 Bedrock AgentCore Policy 实施细粒度管控与安全防护 03-16 Amazon Bedrock AgentCore Cedar策略
[自动] [HACKER_NEWS]	1min	newspaper 开源红队测试平台：针对AI智能体的漏洞利用与评估 03-16 红队测试 AI智能体漏洞利用
[自动] [BLOGS_PODCASTS]	2min	mic 大规模识别LLM交互：提升可解释性与安全性的归因方法 03-15 LLM 可解释性归因分析
[自动] [JUEJIN]	1min	sticky_note_2 315晚会曝光大模型投毒：操纵AI推荐虚假信息 03-15 数据投毒 AI安全 315晚会
[自动] [ARXIV]	3min	school 探究非可验证LLM后训练中的推理模型评判机制 03-14 LLM RLHF 强化学习
[自动] [HACKER_NEWS]	2min	newspaper RAG系统文档投毒攻击：如何污染AI数据源 03-13 RAG LLM 提示注入
[自动] [HACKER_NEWS]	1min	newspaper RAG系统文档投毒攻击：如何污染AI数据源 03-13 RAG 数据投毒提示注入
[自动] [HACKER_NEWS]	1min	newspaper RAG系统文档投毒攻击：如何污染AI数据源 03-13 RAG 数据投毒提示词注入
[自动] [HACKER_NEWS]	2min	newspaper RAG系统文档投毒攻击：如何污染AI知识源 03-13 RAG 提示词注入数据投毒
[自动] [HACKER_NEWS]	1min	newspaper RAG系统文档投毒攻击：如何通过污染数据源破坏AI 03-13 RAG 数据投毒提示词注入
[自动] [HACKER_NEWS]	2min	newspaper RAG系统文档投毒攻击：攻击者如何污染AI数据源 03-12 RAG LLM 数据投毒
[自动] [ARXIV]	2min	school 推理机制如何提升大模型诚实度 03-12 诚实度推理机制欺骗行为
[自动] [ARXIV]	2min	school 推理机制如何提升大模型的诚实度 03-11 LLM 推理机制诚实度
[自动] [BLOGS_PODCASTS]	3min	mic OpenAI 收购 AI 安全平台 Promptfoo 以修复系统漏洞 03-10 OpenAI Promptfoo AI安全
[自动] [BLOGS_PODCASTS]	2min	mic 提升AI模型解释能力以增强安全关键领域可信度 03-10 可解释性 XAI 安全关键
[自动] [BLOGS_PODCASTS]	2min	mic AI实现递归自我改进：AGI迈向新一步 03-10 AGI 递归自我改进 LLM
[自动] [BLOGS_PODCASTS]	2min	mic 提升AI模型在医疗与自动驾驶等场景的可解释性 03-10 可解释性 XAI 医疗AI
[自动] [BLOGS_PODCASTS]	4min	mic OpenAI 收购 AI 安全平台 Promptfoo 以强化系统漏洞修复能力 03-10 OpenAI Promptfoo AI安全
[自动] [BLOGS_PODCASTS]	4min	mic OpenAI收购AI安全平台Promptfoo以修复系统漏洞 03-10 OpenAI Promptfoo AI安全
[自动] [BLOGS_PODCASTS]	3min	mic OpenAI 收购 AI 安全平台 Promptfoo 以修复开发阶段漏洞 03-10 OpenAI Promptfoo AI安全
[自动] [BLOGS_PODCASTS]	2min	mic OpenAI 收购 AI 安全平台 Promptfoo 以强化漏洞修复 03-10 OpenAI Promptfoo AI安全
[自动] [BLOGS_PODCASTS]	2min	mic OpenAI 收购 AI 安全平台 Promptfoo 以修复系统漏洞 03-09 OpenAI Promptfoo AI安全
[自动] [BLOGS_PODCASTS]	2min	mic 提升AI模型解释能力以增强安全关键应用可信度 03-09 可解释性模型信任度安全关键应用
[自动] [BLOGS_PODCASTS]	3min	mic OpenAI收购AI安全平台Promptfoo以修复系统漏洞 03-09 OpenAI Promptfoo AI安全
[自动] [BLOGS_PODCASTS]	2min	mic 提升AI模型解释能力以增强安全关键应用的可信度 03-09 可解释性 XAI 安全关键应用
[自动] [BLOGS_PODCASTS]	2min	mic OpenAI推出CoT-Control：强化推理模型思维链的可监控性 03-09 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]	2min	mic OpenAI发现推理模型难以控制思维链凸显可监控性安全价值 03-09 OpenAI 思维链 CoT
[自动] [ARXIV]	3min	school 迈向偏差可控的LLM评判器：基于有界评估的无偏验证 03-08 LLM-as-a-Judge 偏见控制模型评估
[自动] [BLOGS_PODCASTS]	2min	mic OpenAI推出CoT-Control：强化推理模型可监控性 03-08 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]	2min	mic OpenAI研究：推理模型难控思维链凸显可监控性价值 03-08 OpenAI 推理模型思维链
[自动] [BLOGS_PODCASTS]	2min	mic OpenAI推出CoT-Control：强化推理模型思维链的可监控性 03-08 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]	2min	mic OpenAI研究：推理模型思维链难控强化可监控安全性 03-07 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]	2min	mic OpenAI研究揭示推理模型思维链难以控制凸显可监控性重要性 03-07 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]	2min	mic OpenAI研究：推理模型思维链难控强化可监控性 03-07 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]	2min	mic OpenAI研究：推理模型难以控制思维链，强化可监控性安全价值 03-07 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]	2min	mic OpenAI研究：推理模型难以控制思维链凸显可监控性价值 03-06 OpenAI 思维链 CoT
[自动] [BLOGS_PODCASTS]	2min	mic OpenAI推出CoT-Control：强化推理模型思维链监控 03-06 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]	1min	mic OpenAI推CoT-Control：验证思维链可监控性对AI安全的重要性 03-06 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]	2min	mic OpenAI研究：推理模型思维链难以控制凸显可监控性重要性 03-06 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]	2min	mic GPT-5.4 Thinking系统卡发布：技术架构与推理机制详解 03-06 GPT-5.4 Thinking 系统卡
[自动] [BLOGS_PODCASTS]	2min	mic OpenAI推出CoT-Control：思维链难控凸显可监控性安全价值 03-06 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]	2min	mic OpenAI研究：推理模型难以掌控思维链强化AI安全 03-06 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]	2min	mic GPT-5.4 Thinking 推理模型技术报告发布 03-06 OpenAI GPT-5.4 推理模型
[自动] [BLOGS_PODCASTS]	2min	mic OpenAI 推出 CoT-Control 并强调思维链监控的重要性 03-05 OpenAI CoT 思维链
[自动] [HACKER_NEWS]	1min	newspaper LLM中的L代表撒谎：大语言模型幻觉现象分析 03-05 LLM 幻觉模型评估
[自动] [HACKER_NEWS]	1min	newspaper LLM 中的 L 代表撒谎：大语言模型的幻觉问题 03-05 LLM 幻觉撒谎
[自动] [HACKER_NEWS]	1min	newspaper LLM中的L意指撒谎：大语言模型幻觉问题分析 03-05 LLM 幻觉撒谎
[自动] [HACKER_NEWS]	1min	newspaper LLM中的L代表谎言：大语言模型的幻觉问题分析 03-05 LLM 幻觉 AI安全
[自动] [ARXIV]	2min	school 研究揭示上下文压力导致智能体目标漂移 03-05 智能体目标漂移上下文压力
[自动] [HACKER_NEWS]	1min	newspaper 纽约拟立法禁止聊天机器人提供医疗法律工程建议 03-04 AI监管聊天机器人法律合规
[自动] [ARXIV]	3min	school 过程感知评估揭示大模型智能体中的虚假成功 03-04 LLM Agents 评估基准流程感知
[自动] [ARXIV]	4min	school Conformal Policy Control：基于保形预测的策略控制方法 03-04 保形预测策略控制 RL
[自动] [ARXIV]	3min	school 前沿模型低概率行动能力研究 03-04 前沿模型低概率行动校准
[自动] [HACKER_NEWS]	1min	newspaper TorchLean：在 Lean 中形式化神经网络 03-03 TorchLean Lean 形式化验证
[自动] [BLOGS_PODCASTS]	3min	mic METR Joel Becker谈指数级时间视野评估与威胁模型 03-03 METR Joel Becker 时间视野评估
[自动] [BLOGS_PODCASTS]	3min	mic METR Joel Becker谈指数级时间视界评估与威胁模型 03-02 METR 模型评估威胁模型
[自动] [HACKER_NEWS]	1min	newspaper XML标签为何是Claude模型架构的核心基础 03-02 Claude XML标签模型架构
[自动] [HACKER_NEWS]	1min	newspaper LLM生成文本检测：原理、方法与技术挑战 03-01 LLM 文本检测 AI安全

2026年二月 111 篇

类型	阅读	条目
[自动] [HACKER_NEWS]	1min	newspaper 不要信任AI智能体 02-28 AI智能体安全风险信任机制
[自动] [HACKER_NEWS]	1min	newspaper 不要信任 AI 智能体 02-28 AI智能体安全风险信任机制
[自动] [HACKER_NEWS]	1min	newspaper 逆向工程挑战：解析神经网络架构与参数 02-27 逆向工程神经网络模型安全
[自动] [BLOGS_PODCASTS]	3min	mic Anthropic蒸馏与模型作弊机制：SWE-Bench失效分析 02-27 Anthropic 模型蒸馏宪法AI
[自动] [HACKER_NEWS]	1min	newspaper 谷歌员工效仿Anthropic，要求制定军事AI红线 02-27 谷歌 Anthropic 军事AI
[自动] [HACKER_NEWS]	1min	newspaper 谷歌员工效仿Anthropic，要求为军事AI设定红线 02-27 谷歌军事AI Anthropic
[自动] [ARXIV]	2min	school 缓解可读性代价：基于解耦证明者-验证者博弈的方法 02-27 LLM 可解释性模型评估
[自动] [HACKER_NEWS]	1min	newspaper 用概念代数引导可解释的语言模型 02-26 可解释性概念代数模型控制
[自动] [HACKER_NEWS]	1min	newspaper Anthropic 放弃其核心安全承诺 02-26 Anthropic AI安全对齐
[自动] [HACKER_NEWS]	1min	newspaper Anthropic 放弃核心安全承诺 02-26 Anthropic AI安全大模型
[自动] [BLOGS_PODCASTS]	2min	mic 2026年2月威胁报告：AI模型与社交平台结合的恶意利用及防御 02-26 威胁报告恶意利用 AI安全
[自动] [HACKER_NEWS]	3min	newspaper Anthropic 放弃其核心安全承诺 02-26 Anthropic AI安全对齐
[自动] [HACKER_NEWS]	4min	newspaper 利用大语言模型实现大规模在线去匿名化 02-26 LLM 去匿名化隐私攻击
[自动] [HACKER_NEWS]	1min	newspaper 利用大语言模型实现大规模在线去匿名化 02-26 LLM 去匿名化隐私攻击
[自动] [BLOGS_PODCASTS]	2min	mic 2026年2月威胁报告：AI模型结合网站与社交平台的恶意利用及防御 02-26 威胁报告恶意利用 AI安全
[自动] [BLOGS_PODCASTS]	2min	mic 2026年2月威胁报告：AI模型结合网站与社交平台的恶意利用及防御 02-26 威胁报告 AI安全恶意利用
[自动] [HACKER_NEWS]	1min	newspaper 利用大语言模型实现大规模在线去匿名化 02-26 去匿名化隐私攻击 LLM
[自动] [BLOGS_PODCASTS]	2min	mic 2026年2月威胁报告：AI模型结合社交平台的恶意利用及防御 02-26 威胁报告恶意利用 AI安全
[自动] [HACKER_NEWS]	1min	newspaper 基于LLM的大规模在线去匿名化研究 02-26 LLM 去匿名化隐私攻击
[自动] [BLOGS_PODCASTS]	2min	mic 2026年2月威胁报告：AI模型结合网站与社交平台的恶意利用及防御 02-25 威胁报告恶意利用 AI安全
[自动] [HACKER_NEWS]	1min	newspaper 利用大语言模型实现大规模在线去匿名化 02-25 LLM 去匿名化隐私安全
[自动] [BLOGS_PODCASTS]	2min	mic 2026年2月威胁报告：AI模型结合社交平台的恶意利用与防御 02-25 威胁报告恶意利用社交平台
[自动] [BLOGS_PODCASTS]	2min	mic Anthropic指控DeepSeek等遭超1600万次工业级蒸馏攻击 02-25 Anthropic DeepSeek 模型蒸馏
[自动] [BLOGS_PODCASTS]	2min	mic 2026年2月威胁报告：AI模型结合网站与社交平台的恶意利用及防御 02-25 威胁报告 AI安全恶意利用
[自动] [BLOGS_PODCASTS]	2min	mic 2026年2月威胁报告：AI模型结合网站与社交平台的恶意利用及防御 02-25 威胁报告恶意利用 AI安全
[自动] [HACKER_NEWS]	1min	newspaper Anthropic 撤销旗舰产品安全承诺 02-25 Anthropic Claude 安全承诺
[自动] [HACKER_NEWS]	1min	newspaper Anthropic 放弃旗舰安全承诺，不再遵守 AI 安全准则 02-25 Anthropic AI安全负责任AI
[自动] [ARXIV]	4min	school Skill-Inject：评估智能体技能文件攻击漏洞 02-24 LLM Agents Prompt Injection Skill-Inject
[自动] [BLOGS_PODCASTS]	2min	mic OpenAI 成立前沿联盟，助力企业实现智能体规模化生产部署 02-24 OpenAI 智能体企业部署
[自动] [HACKER_NEWS]	2min	newspaper Steerling-8B：可解释自身生成任一 token 的语言模型 02-24 Steerling-8B 可解释性 LLM
[自动] [HACKER_NEWS]	2min	newspaper Steerling-8B：可解释自身生成任一 Token 的语言模型 02-24 Steerling-8B 可解释性 LLM
[自动] [HACKER_NEWS]	1min	newspaper 53款模型“洗车”测试 02-24 模型评估基准测试 LLM
[自动] [HACKER_NEWS]	2min	newspaper Steerling-8B：可解释自身生成任一 Token 的语言模型 02-24 Steerling-8B 可解释性 LLM
[自动] [BLOGS_PODCASTS]	3min	mic OpenAI成立前沿联盟：助企业安全部署AI智能体落地生产 02-24 OpenAI 智能体 AI部署
[自动] [HACKER_NEWS]	1min	newspaper 53款模型“洗车”测试：评估多模态AI在物理场景中的表现 02-24 多模态物理场景模型评估
[自动] [HACKER_NEWS]	1min	newspaper Steerling-8B：可解释自身生成任一 Token 的语言模型 02-24 Steerling-8B 可解释性 LLM
[自动] [HACKER_NEWS]	1min	newspaper Steerling-8B：可解释自身生成任一 Token 的语言模型 02-24 Steerling-8B 可解释性 LLM
[自动] [HACKER_NEWS]	1min	newspaper 53 款模型参与“洗车”基准测试 02-23 基准测试模型评估 LLM
[自动] [BLOGS_PODCASTS]	2min	mic MIT新方法根除漏洞并提升大语言模型安全性与性能 02-23 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]	2min	mic MIT新方法根除漏洞并提升大语言模型安全性与性能 02-23 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]	2min	mic MIT新方法揭示大模型隐藏偏差并提升安全性 02-23 MIT LLM 模型安全
[自动] [HACKER_NEWS]	3min	newspaper 人类信任根：面向智能体问责的公共领域框架 02-22 智能体问责制信任根
[自动] [HACKER_NEWS]	1min	newspaper 大语言模型推理失败机制分析 02-21 LLM 推理逻辑错误
[自动] [BLOGS_PODCASTS]	2min	mic OpenAI 投入 750 万美元资助独立 AI 对齐研究 02-20 OpenAI AI对齐 AGI安全
[自动] [BLOGS_PODCASTS]	2min	mic Anthropic 发布自主智能体 METR 基准测试数据 02-20 Anthropic 智能体 Agent
[自动] [BLOGS_PODCASTS]	2min	mic OpenAI 投入 750 万美元资助独立 AI 对齐研究 02-20 OpenAI AI对齐 AGI安全
[自动] [BLOGS_PODCASTS]	2min	mic Anthropic 发布自主智能体 METR 基准测试数据 02-20 Anthropic METR 自主智能体
[自动] [BLOGS_PODCASTS]	2min	mic 麻省理工学院新方法根除漏洞并提升大语言模型安全性 02-20 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]	3min	mic Anthropic发布基于METR数据的Agent自主性研究 02-20 Anthropic Agent 自主性
[自动] [HACKER_NEWS]	1min	newspaper AI智能体自主性水平的实践评估方法 02-20 AI Agent 自主性评估方法
[自动] [BLOGS_PODCASTS]	3min	mic Anthropic发布Agent自主性研究及METR数据 02-19 Anthropic Agent 自主性
[自动] [HACKER_NEWS]	1min	newspaper 不要盲目信任盐值：AI摘要、多语言安全与大模型防护机制 02-19 LLM AI安全防护机制
[自动] [BLOGS_PODCASTS]	2min	mic 理性人无目标论：AI对齐应基于实践协调而非终极目的 02-19 AI对齐正交性论题美德伦理
[自动] [HACKER_NEWS]	1min	newspaper 不要盲目信任Salt：AI摘要、多语言安全与LLM护栏 02-19 LLM AI安全护栏
[自动] [BLOGS_PODCASTS]	2min	mic OpenAI出资750万美元资助独立AI对齐研究 02-19 OpenAI AI对齐 AGI安全
[自动] [HACKER_NEWS]	1min	newspaper 不要轻信盐值：AI摘要、多语言安全与大模型防护机制 02-19 LLM AI安全提示词注入
[自动] [BLOGS_PODCASTS]	3min	mic Anthropic发布Agent自主性研究及METR数据 02-19 Anthropic Agent 自主性
[自动] [BLOGS_PODCASTS]	2min	mic 美德伦理在AI对齐中的有效性 02-19 AI对齐美德伦理 AI安全
[自动] [BLOGS_PODCASTS]	2min	mic 长期对话语境下LLM观点映射与回声室效应 02-19 LLM 个性化回声室效应
[自动] [BLOGS_PODCASTS]	1min	mic 2026年负责任人工智能进展报告 02-19 负责任AI AI安全伦理
[自动] [BLOGS_PODCASTS]	2min	mic 2026年度负责任人工智能进展报告 02-19 负责任AI AI安全伦理
[自动] [BLOGS_PODCASTS]	2min	mic 2026年度负责任人工智能进展报告 02-19 负责任AI Responsible AI AI安全
[自动] [BLOGS_PODCASTS]	2min	mic 2026年负责任人工智能进展报告 02-18 负责任AI AI伦理 AI安全
[自动] [BLOGS_PODCASTS]	4min	mic ChatGPT 推出锁定模式与高风险标签以防御提示注入 02-18 ChatGPT OpenAI 提示注入
[自动] [BLOGS_PODCASTS]	2min	mic 长期对话语境导致LLM迎合用户观点形成回声室 02-18 LLM 个性化回声室
[自动] [BLOGS_PODCASTS]	3min	mic ChatGPT推出锁定模式与高风险标签，防范提示词注入及数据外泄 02-18 ChatGPT 提示词注入数据安全
[自动] [BLOGS_PODCASTS]	2min	mic 2026年负责任AI进展报告 02-18 负责任AI Responsible AI AI伦理
[自动] [BLOGS_PODCASTS]	2min	mic 长期对话导致LLM模仿用户观点并形成回声室 02-18 LLM 个性化回声室
[自动] [BLOGS_PODCASTS]	2min	mic ChatGPT推出锁定模式与高风险标签以抵御提示注入 02-18 ChatGPT 提示注入锁定模式
[自动] [BLOGS_PODCASTS]	2min	mic 2026年度负责任人工智能进展报告 02-18 负责任AI AI治理合规
[自动] [BLOGS_PODCASTS]	2min	mic ChatGPT 推出锁定模式与高风险标签防御提示注入 02-18 ChatGPT 企业安全提示注入
[自动] [BLOGS_PODCASTS]	2min	mic 2026年度负责任人工智能进展报告 02-18 负责任AI AI安全模型治理
[自动] [BLOGS_PODCASTS]	2min	mic ChatGPT 推出锁定模式与高风险标签以防御提示词注入 02-17 ChatGPT 提示词注入锁定模式
[自动] [ARXIV]	3min	school 恶意提示词分类器在真实分布偏移下的评估方法 02-17 LLM安全提示词注入越狱攻击
[自动] [BLOGS_PODCASTS]	2min	mic ChatGPT 推出锁定模式与高风险标签以防御提示注入 02-17 ChatGPT 提示注入锁定模式
[自动] [BLOGS_PODCASTS]	3min	mic ChatGPT推出锁定模式与高风险标签防御提示词注入 02-16 ChatGPT OpenAI 提示词注入
[自动] [BLOGS_PODCASTS]	2min	mic ChatGPT推出锁定模式与高风险标签以防御提示注入 02-16 ChatGPT 提示注入锁定模式
[自动] [HACKER_NEWS]	4min	newspaper 电台主播指控谷歌NotebookLM语音克隆功能窃取其声音 02-16 NotebookLM 谷歌语音克隆
[自动] [BLOGS_PODCASTS]	2min	mic ChatGPT 推出锁定模式与高风险标签以抵御提示注入 02-15 ChatGPT 提示注入锁定模式
[自动] [BLOGS_PODCASTS]	2min	mic ChatGPT 推出锁定模式与高风险标签防御提示词注入 02-15 ChatGPT 提示词注入锁定模式
[自动] [BLOGS_PODCASTS]	2min	mic ChatGPT 推出锁定模式与高风险标签，防御提示注入及数据外泄 02-14 ChatGPT 提示注入数据安全
[自动] [BLOGS_PODCASTS]	3min	mic ChatGPT推出锁定模式与高危标签以防范提示词注入及数据外泄 02-14 ChatGPT 提示词注入数据安全
[自动] [BLOGS_PODCASTS]	3min	mic ChatGPT 推出锁定模式与高风险标签防御提示词注入 02-14 ChatGPT 提示词注入 Prompt Injection
[自动] [HACKER_NEWS]	4min	newspaper OpenAI 使命声明演变：从通用人工智能到造福人类 02-14 OpenAI 使命声明 AGI
[自动] [BLOGS_PODCASTS]	2min	mic ChatGPT推出锁定模式与高风险标签防御提示词注入 02-13 ChatGPT OpenAI 提示词注入
[自动] [BLOGS_PODCASTS]	2min	mic ChatGPT推出锁定模式与高风险标记以防御提示词注入 02-13 ChatGPT 提示词注入企业安全
[自动] [HACKER_NEWS]	3min	newspaper 评估多语言上下文护栏：人道主义大模型应用 02-13 LLM 护栏多语言
[自动] [HACKER_NEWS]	3min	newspaper 尼克·博斯特罗姆新论文探讨超级智能的启动时机 02-13 超级智能尼克·博斯特罗姆 AI安全
[自动] [BLOGS_PODCASTS]	2min	mic OpenEnv实践：评估真实环境中的工具调用智能体 02-13 智能体工具调用 OpenEnv
[自动] [HACKER_NEWS]	3min	newspaper 评估多语言上下文护栏：人道主义LLM用例 02-13 LLM 护栏多语言
[自动] [HACKER_NEWS]	3min	newspaper 大语言模型面临的幻觉与逻辑推理局限 02-12 LLM 幻觉逻辑推理
[自动] [HACKER_NEWS]	4min	newspaper 大语言模型在逻辑推理与事实准确性上的局限 02-12 LLM 逻辑推理事实准确性
[自动] [ARXIV]	3min	school LLM盲区偏差检测：识别模型未提及内容 02-11 LLM 偏见检测模型评估
[自动] [BLOGS_PODCASTS]	1min	mic Automated Reasoning checks rewriting chatbot reference 02-11 自动化推理聊天机器人参考实现
[自动] [ARXIV]	1min	school Moltbook 漏洞：自进化 AI 社会中 Anthropic 安全机制失效 02-11 Anthropic AI安全对齐
[自动] [BLOGS_PODCASTS]	2min	mic OpenAI在GenAI.mil部署定制版ChatGPT以服务美国防务团队 02-10 OpenAI ChatGPT GenAI.mil
[自动] [BLOGS_PODCASTS]	2min	mic OpenAI在GenAI.mil部署定制ChatGPT服务美国国防团队 02-10 OpenAI ChatGPT GenAI.mil
[自动] [BLOGS_PODCASTS]	3min	mic Goodfire AI：打造首个机制可解释性实验室与企业级API 02-10 Goodfire AI 机制可解释性 Mechanistic Interpretability
[自动] [HACKER_NEWS]	4min	newspaper 基于人类反馈的强化学习：原理与应用 02-07 RLHF 强化学习人类反馈
[自动] [HACKER_NEWS]	5min	newspaper 让信任变得无关紧要：玩家视角下的智能体安全 02-07 智能体 Agent安全游戏理论
[自动] [BLOGS_PODCASTS]	3min	mic 首个机制可解释性前沿实验室：Goodfire AI 团队专访 02-07 机制可解释性 Goodfire AI AI安全
[自动] [HACKER_NEWS]	4min	newspaper 评估与缓解大模型发现零日漏洞的新兴风险 02-07 LLM 零日漏洞漏洞挖掘
[自动] [HACKER_NEWS]	4min	newspaper 评估与缓解大模型发现的零日漏洞风险 02-07 LLM 零日漏洞漏洞挖掘
[自动] [ARXIV]	4min	school 研究揭示推理大模型生成虚假新闻的内在机制 02-06 LLM CoT 虚假新闻
[自动] [HACKER_NEWS]	3min	newspaper 心理越狱揭示前沿模型内部冲突 02-05 越狱心理攻击模型对齐
[自动] [HACKER_NEWS]	4min	newspaper Anthropic Claude Opus 4.6 挖掘开源代码500个零日漏洞 02-05 Anthropic Claude Opus 零日漏洞
[自动] [BLOGS_PODCASTS]	2min	mic Sora Feed理念：个性化推荐与安全护栏构建 02-04 Sora 个性化推荐内容安全
[自动] [HACKER_NEWS]	3min	newspaper 模型对齐偏差如何随智能水平与任务复杂度演变 02-03 模型对齐智能水平任务复杂度
[自动] [HACKER_NEWS]	4min	newspaper 模型智能与任务复杂度如何影响对齐偏差 02-03 对齐模型智能任务复杂度
[自动] [HACKER_NEWS]	4min	newspaper 模型对齐问题如何随智能水平与任务复杂度演变 02-03 模型对齐智能水平任务复杂度
[自动] [ARXIV]	4min	school RedSage：网络安全通用大语言模型 02-01 RedSage 网络安全 LLM

2026年一月 8 篇

类型	阅读	条目
[自动] [HACKER_NEWS]	4min	newspaper 发现逾17.5万个Ollama AI实例公网暴露 01-31 Ollama 数据泄露公网暴露
[自动] [BLOGS_PODCASTS]	4min	mic OpenAI 如何通过内置安全机制防范 AI 代理点击链接时的数据泄露与提示词注入 01-29 OpenAI AI代理数据泄露
[自动] [BLOGS_PODCASTS]	2min	mic EMEA青年与福祉资助金：50万欧元支持AI时代青年安全福祉研究 01-29 AI安全青年福祉 NGO
[自动] [BLOGS_PODCASTS]	2min	mic EMEA青年与健康资助计划开放申请，50万欧元支持AI时代青年安全研究 01-29 AI安全青年健康资助计划
[自动] [ARXIV]	4min	school 💥MortalMATH：当推理目标遇上紧急场景，AI会“翻车”吗？ 01-28 LLM 推理模型 MortalMATH
[自动] [ARXIV]	4min	school MortalMATH：当推理目标遇上紧急语境，冲突何解？🧠🔥 01-27 LLM 模型评估安全对齐
[自动] [HACKER_NEWS]	3min	newspaper 警惕！💀 软件拉高出货时代来临！韭菜收割机全揭秘！ 01-27 金融欺诈拉高出货 AI安全
[自动] [HACKER_NEWS]	3min	newspaper 🔍 深度拆解：AI伪造数学证明的惊人真相！🚀 01-26 LLM 幻觉数学证明