目录
AI安全
条目:190
2026年四月
7 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 1min | newspaper
Gas Town被质疑窃取用户LLM用量进行自我优化 04-15
GasTown
LLM滥用
用户隐私 |
[自动]
[HACKER_NEWS] | 1min | newspaper
小模型复现Mythos漏洞检测成果 04-12
小模型
漏洞检测
Mythos |
[自动]
[HACKER_NEWS] | 1min | newspaper
小型模型复现Mythos漏洞检测能力 04-11
漏洞检测
小型模型
Mythos |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Anthropic估值达$30B 新模型因太危险无法发布 04-08
Anthropic
Claude
GlassWing |
[自动]
[HACKER_NEWS] | 1min | newspaper
Project Glasswing:AI时代关键软件安全方案 04-08
AI安全
关键软件
Glasswing |
[自动]
[HACKER_NEWS] | 1min | newspaper
玻璃翼项目:保护AI时代关键软件 04-07
玻璃翼
AI安全
关键软件 |
[自动]
[JUEJIN] | 1min | sticky_note_2
Claude Code源码泄漏:AI编程助手的安全启示 04-05
Claude Code
源码泄漏
AI安全 |
2026年三月
64 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI思维链监控:检测内部编码智能体对齐失败 03-20
思维链监控
对齐失败
AI安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
新指标识别AI模型过度自信 降低幻觉风险 03-19
过度自信
不确定性量化
幻觉检测 |
[自动]
[ARXIV] | 3min | school
反事实解释指标与用户感知的一致性研究 03-18
XAI
反事实解释
模型评估 |
[自动]
[ARXIV] | 3min | school
大语言模型道德冷漠现象的机制起源研究 03-17
对齐
AI安全
道德推理 |
[自动]
[ARXIV] | 3min | school
反事实解释指标与用户感知的一致性研究 03-17
可解释性
反事实解释
用户感知 |
[自动]
[HACKER_NEWS] | 1min | newspaper
Agent Skills:面向智能体的开放安全数据库 03-16
Agent
智能体
安全数据库 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
利用 Bedrock AgentCore Policy 实施细粒度管控与安全防护 03-16
Amazon Bedrock
AgentCore
Cedar策略 |
[自动]
[HACKER_NEWS] | 1min | newspaper
开源红队测试平台:针对AI智能体的漏洞利用与评估 03-16
红队测试
AI智能体
漏洞利用 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
大规模识别LLM交互:提升可解释性与安全性的归因方法 03-15
LLM
可解释性
归因分析 |
[自动]
[JUEJIN] | 1min | sticky_note_2
315晚会曝光大模型投毒:操纵AI推荐虚假信息 03-15
数据投毒
AI安全
315晚会 |
[自动]
[ARXIV] | 3min | school
探究非可验证LLM后训练中的推理模型评判机制 03-14
LLM
RLHF
强化学习 |
[自动]
[HACKER_NEWS] | 2min | newspaper
RAG系统文档投毒攻击:如何污染AI数据源 03-13
RAG
LLM
提示注入 |
[自动]
[HACKER_NEWS] | 1min | newspaper
RAG系统文档投毒攻击:如何污染AI数据源 03-13
RAG
数据投毒
提示注入 |
[自动]
[HACKER_NEWS] | 1min | newspaper
RAG系统文档投毒攻击:如何污染AI数据源 03-13
RAG
数据投毒
提示词注入 |
[自动]
[HACKER_NEWS] | 2min | newspaper
RAG系统文档投毒攻击:如何污染AI知识源 03-13
RAG
提示词注入
数据投毒 |
[自动]
[HACKER_NEWS] | 1min | newspaper
RAG系统文档投毒攻击:如何通过污染数据源破坏AI 03-13
RAG
数据投毒
提示词注入 |
[自动]
[HACKER_NEWS] | 2min | newspaper
RAG系统文档投毒攻击:攻击者如何污染AI数据源 03-12
RAG
LLM
数据投毒 |
[自动]
[ARXIV] | 2min | school
推理机制如何提升大模型诚实度 03-12
诚实度
推理机制
欺骗行为 |
[自动]
[ARXIV] | 2min | school
推理机制如何提升大模型的诚实度 03-11
LLM
推理机制
诚实度 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
OpenAI 收购 AI 安全平台 Promptfoo 以修复系统漏洞 03-10
OpenAI
Promptfoo
AI安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
提升AI模型解释能力以增强安全关键领域可信度 03-10
可解释性
XAI
安全关键 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AI实现递归自我改进:AGI迈向新一步 03-10
AGI
递归自我改进
LLM |
[自动]
[BLOGS_PODCASTS] | 2min | mic
提升AI模型在医疗与自动驾驶等场景的可解释性 03-10
可解释性
XAI
医疗AI |
[自动]
[BLOGS_PODCASTS] | 4min | mic
OpenAI 收购 AI 安全平台 Promptfoo 以强化系统漏洞修复能力 03-10
OpenAI
Promptfoo
AI安全 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
OpenAI收购AI安全平台Promptfoo以修复系统漏洞 03-10
OpenAI
Promptfoo
AI安全 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
OpenAI 收购 AI 安全平台 Promptfoo 以修复开发阶段漏洞 03-10
OpenAI
Promptfoo
AI安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI 收购 AI 安全平台 Promptfoo 以强化漏洞修复 03-10
OpenAI
Promptfoo
AI安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI 收购 AI 安全平台 Promptfoo 以修复系统漏洞 03-09
OpenAI
Promptfoo
AI安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
提升AI模型解释能力以增强安全关键应用可信度 03-09
可解释性
模型信任度
安全关键应用 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
OpenAI收购AI安全平台Promptfoo以修复系统漏洞 03-09
OpenAI
Promptfoo
AI安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
提升AI模型解释能力以增强安全关键应用的可信度 03-09
可解释性
XAI
安全关键应用 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI推出CoT-Control:强化推理模型思维链的可监控性 03-09
OpenAI
CoT
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI发现推理模型难以控制思维链凸显可监控性安全价值 03-09
OpenAI
思维链
CoT |
[自动]
[ARXIV] | 3min | school
迈向偏差可控的LLM评判器:基于有界评估的无偏验证 03-08
LLM-as-a-Judge
偏见控制
模型评估 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI推出CoT-Control:强化推理模型可监控性 03-08
OpenAI
CoT
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI研究:推理模型难控思维链凸显可监控性价值 03-08
OpenAI
推理模型
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI推出CoT-Control:强化推理模型思维链的可监控性 03-08
OpenAI
CoT
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI研究:推理模型思维链难控强化可监控安全性 03-07
OpenAI
CoT
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI研究揭示推理模型思维链难以控制凸显可监控性重要性 03-07
OpenAI
CoT
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI研究:推理模型思维链难控强化可监控性 03-07
OpenAI
CoT
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI研究:推理模型难以控制思维链,强化可监控性安全价值 03-07
OpenAI
CoT
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI研究:推理模型难以控制思维链凸显可监控性价值 03-06
OpenAI
思维链
CoT |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI推出CoT-Control:强化推理模型思维链监控 03-06
OpenAI
CoT
思维链 |
[自动]
[BLOGS_PODCASTS] | 1min | mic
OpenAI推CoT-Control:验证思维链可监控性对AI安全的重要性 03-06
OpenAI
CoT
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI研究:推理模型思维链难以控制凸显可监控性重要性 03-06
OpenAI
CoT
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-5.4 Thinking系统卡发布:技术架构与推理机制详解 03-06
GPT-5.4
Thinking
系统卡 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI推出CoT-Control:思维链难控凸显可监控性安全价值 03-06
OpenAI
CoT
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI研究:推理模型难以掌控思维链强化AI安全 03-06
OpenAI
CoT
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-5.4 Thinking 推理模型技术报告发布 03-06
OpenAI
GPT-5.4
推理模型 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI 推出 CoT-Control 并强调思维链监控的重要性 03-05
OpenAI
CoT
思维链 |
[自动]
[HACKER_NEWS] | 1min | newspaper
LLM中的L代表撒谎:大语言模型幻觉现象分析 03-05
LLM
幻觉
模型评估 |
[自动]
[HACKER_NEWS] | 1min | newspaper
LLM 中的 L 代表撒谎:大语言模型的幻觉问题 03-05
LLM
幻觉
撒谎 |
[自动]
[HACKER_NEWS] | 1min | newspaper
LLM中的L意指撒谎:大语言模型幻觉问题分析 03-05
LLM
幻觉
撒谎 |
[自动]
[HACKER_NEWS] | 1min | newspaper
LLM中的L代表谎言:大语言模型的幻觉问题分析 03-05
LLM
幻觉
AI安全 |
[自动]
[ARXIV] | 2min | school
研究揭示上下文压力导致智能体目标漂移 03-05
智能体
目标漂移
上下文压力 |
[自动]
[HACKER_NEWS] | 1min | newspaper
纽约拟立法禁止聊天机器人提供医疗法律工程建议 03-04
AI监管
聊天机器人
法律合规 |
[自动]
[ARXIV] | 3min | school
过程感知评估揭示大模型智能体中的虚假成功 03-04
LLM Agents
评估基准
流程感知 |
[自动]
[ARXIV] | 4min | school
Conformal Policy Control:基于保形预测的策略控制方法 03-04
保形预测
策略控制
RL |
[自动]
[ARXIV] | 3min | school
前沿模型低概率行动能力研究 03-04
前沿模型
低概率行动
校准 |
[自动]
[HACKER_NEWS] | 1min | newspaper
TorchLean:在 Lean 中形式化神经网络 03-03
TorchLean
Lean
形式化验证 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
METR Joel Becker谈指数级时间视野评估与威胁模型 03-03
METR
Joel Becker
时间视野评估 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
METR Joel Becker谈指数级时间视界评估与威胁模型 03-02
METR
模型评估
威胁模型 |
[自动]
[HACKER_NEWS] | 1min | newspaper
XML标签为何是Claude模型架构的核心基础 03-02
Claude
XML标签
模型架构 |
[自动]
[HACKER_NEWS] | 1min | newspaper
LLM生成文本检测:原理、方法与技术挑战 03-01
LLM
文本检测
AI安全 |
2026年二月
111 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 1min | newspaper
不要信任AI智能体 02-28
AI智能体
安全风险
信任机制 |
[自动]
[HACKER_NEWS] | 1min | newspaper
不要信任 AI 智能体 02-28
AI智能体
安全风险
信任机制 |
[自动]
[HACKER_NEWS] | 1min | newspaper
逆向工程挑战:解析神经网络架构与参数 02-27
逆向工程
神经网络
模型安全 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic蒸馏与模型作弊机制:SWE-Bench失效分析 02-27
Anthropic
模型蒸馏
宪法AI |
[自动]
[HACKER_NEWS] | 1min | newspaper
谷歌员工效仿Anthropic,要求制定军事AI红线 02-27
谷歌
Anthropic
军事AI |
[自动]
[HACKER_NEWS] | 1min | newspaper
谷歌员工效仿Anthropic,要求为军事AI设定红线 02-27
谷歌
军事AI
Anthropic |
[自动]
[ARXIV] | 2min | school
缓解可读性代价:基于解耦证明者-验证者博弈的方法 02-27
LLM
可解释性
模型评估 |
[自动]
[HACKER_NEWS] | 1min | newspaper
用概念代数引导可解释的语言模型 02-26
可解释性
概念代数
模型控制 |
[自动]
[HACKER_NEWS] | 1min | newspaper
Anthropic 放弃其核心安全承诺 02-26
Anthropic
AI安全
对齐 |
[自动]
[HACKER_NEWS] | 1min | newspaper
Anthropic 放弃核心安全承诺 02-26
Anthropic
AI安全
大模型 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
2026年2月威胁报告:AI模型与社交平台结合的恶意利用及防御 02-26
威胁报告
恶意利用
AI安全 |
[自动]
[HACKER_NEWS] | 3min | newspaper
Anthropic 放弃其核心安全承诺 02-26
Anthropic
AI安全
对齐 |
[自动]
[HACKER_NEWS] | 4min | newspaper
利用大语言模型实现大规模在线去匿名化 02-26
LLM
去匿名化
隐私攻击 |
[自动]
[HACKER_NEWS] | 1min | newspaper
利用大语言模型实现大规模在线去匿名化 02-26
LLM
去匿名化
隐私攻击 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
2026年2月威胁报告:AI模型结合网站与社交平台的恶意利用及防御 02-26
威胁报告
恶意利用
AI安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
2026年2月威胁报告:AI模型结合网站与社交平台的恶意利用及防御 02-26
威胁报告
AI安全
恶意利用 |
[自动]
[HACKER_NEWS] | 1min | newspaper
利用大语言模型实现大规模在线去匿名化 02-26
去匿名化
隐私攻击
LLM |
[自动]
[BLOGS_PODCASTS] | 2min | mic
2026年2月威胁报告:AI模型结合社交平台的恶意利用及防御 02-26
威胁报告
恶意利用
AI安全 |
[自动]
[HACKER_NEWS] | 1min | newspaper
基于LLM的大规模在线去匿名化研究 02-26
LLM
去匿名化
隐私攻击 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
2026年2月威胁报告:AI模型结合网站与社交平台的恶意利用及防御 02-25
威胁报告
恶意利用
AI安全 |
[自动]
[HACKER_NEWS] | 1min | newspaper
利用大语言模型实现大规模在线去匿名化 02-25
LLM
去匿名化
隐私安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
2026年2月威胁报告:AI模型结合社交平台的恶意利用与防御 02-25
威胁报告
恶意利用
社交平台 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Anthropic指控DeepSeek等遭超1600万次工业级蒸馏攻击 02-25
Anthropic
DeepSeek
模型蒸馏 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
2026年2月威胁报告:AI模型结合网站与社交平台的恶意利用及防御 02-25
威胁报告
AI安全
恶意利用 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
2026年2月威胁报告:AI模型结合网站与社交平台的恶意利用及防御 02-25
威胁报告
恶意利用
AI安全 |
[自动]
[HACKER_NEWS] | 1min | newspaper
Anthropic 撤销旗舰产品安全承诺 02-25
Anthropic
Claude
安全承诺 |
[自动]
[HACKER_NEWS] | 1min | newspaper
Anthropic 放弃旗舰安全承诺,不再遵守 AI 安全准则 02-25
Anthropic
AI安全
负责任AI |
[自动]
[ARXIV] | 4min | school
Skill-Inject:评估智能体技能文件攻击漏洞 02-24
LLM Agents
Prompt Injection
Skill-Inject |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI 成立前沿联盟,助力企业实现智能体规模化生产部署 02-24
OpenAI
智能体
企业部署 |
[自动]
[HACKER_NEWS] | 2min | newspaper
Steerling-8B:可解释自身生成任一 token 的语言模型 02-24
Steerling-8B
可解释性
LLM |
[自动]
[HACKER_NEWS] | 2min | newspaper
Steerling-8B:可解释自身生成任一 Token 的语言模型 02-24
Steerling-8B
可解释性
LLM |
[自动]
[HACKER_NEWS] | 1min | newspaper
53款模型“洗车”测试 02-24
模型评估
基准测试
LLM |
[自动]
[HACKER_NEWS] | 2min | newspaper
Steerling-8B:可解释自身生成任一 Token 的语言模型 02-24
Steerling-8B
可解释性
LLM |
[自动]
[BLOGS_PODCASTS] | 3min | mic
OpenAI成立前沿联盟:助企业安全部署AI智能体落地生产 02-24
OpenAI
智能体
AI部署 |
[自动]
[HACKER_NEWS] | 1min | newspaper
53款模型“洗车”测试:评估多模态AI在物理场景中的表现 02-24
多模态
物理场景
模型评估 |
[自动]
[HACKER_NEWS] | 1min | newspaper
Steerling-8B:可解释自身生成任一 Token 的语言模型 02-24
Steerling-8B
可解释性
LLM |
[自动]
[HACKER_NEWS] | 1min | newspaper
Steerling-8B:可解释自身生成任一 Token 的语言模型 02-24
Steerling-8B
可解释性
LLM |
[自动]
[HACKER_NEWS] | 1min | newspaper
53 款模型参与“洗车”基准测试 02-23
基准测试
模型评估
LLM |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法根除漏洞并提升大语言模型安全性与性能 02-23
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法根除漏洞并提升大语言模型安全性与性能 02-23
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法揭示大模型隐藏偏差并提升安全性 02-23
MIT
LLM
模型安全 |
[自动]
[HACKER_NEWS] | 3min | newspaper
人类信任根:面向智能体问责的公共领域框架 02-22
智能体
问责制
信任根 |
[自动]
[HACKER_NEWS] | 1min | newspaper
大语言模型推理失败机制分析 02-21
LLM
推理
逻辑错误 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI 投入 750 万美元资助独立 AI 对齐研究 02-20
OpenAI
AI对齐
AGI安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Anthropic 发布自主智能体 METR 基准测试数据 02-20
Anthropic
智能体
Agent |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI 投入 750 万美元资助独立 AI 对齐研究 02-20
OpenAI
AI对齐
AGI安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Anthropic 发布自主智能体 METR 基准测试数据 02-20
Anthropic
METR
自主智能体 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
麻省理工学院新方法根除漏洞并提升大语言模型安全性 02-20
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic发布基于METR数据的Agent自主性研究 02-20
Anthropic
Agent
自主性 |
[自动]
[HACKER_NEWS] | 1min | newspaper
AI智能体自主性水平的实践评估方法 02-20
AI Agent
自主性
评估方法 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic发布Agent自主性研究及METR数据 02-19
Anthropic
Agent
自主性 |
[自动]
[HACKER_NEWS] | 1min | newspaper
不要盲目信任盐值:AI摘要、多语言安全与大模型防护机制 02-19
LLM
AI安全
防护机制 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
理性人无目标论:AI对齐应基于实践协调而非终极目的 02-19
AI对齐
正交性论题
美德伦理 |
[自动]
[HACKER_NEWS] | 1min | newspaper
不要盲目信任Salt:AI摘要、多语言安全与LLM护栏 02-19
LLM
AI安全
护栏 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI出资750万美元资助独立AI对齐研究 02-19
OpenAI
AI对齐
AGI安全 |
[自动]
[HACKER_NEWS] | 1min | newspaper
不要轻信盐值:AI摘要、多语言安全与大模型防护机制 02-19
LLM
AI安全
提示词注入 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic发布Agent自主性研究及METR数据 02-19
Anthropic
Agent
自主性 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
美德伦理在AI对齐中的有效性 02-19
AI对齐
美德伦理
AI安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
长期对话语境下LLM观点映射与回声室效应 02-19
LLM
个性化
回声室效应 |
[自动]
[BLOGS_PODCASTS] | 1min | mic
2026年负责任人工智能进展报告 02-19
负责任AI
AI安全
伦理 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
2026年度负责任人工智能进展报告 02-19
负责任AI
AI安全
伦理 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
2026年度负责任人工智能进展报告 02-19
负责任AI
Responsible AI
AI安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
2026年负责任人工智能进展报告 02-18
负责任AI
AI伦理
AI安全 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
ChatGPT 推出锁定模式与高风险标签以防御提示注入 02-18
ChatGPT
OpenAI
提示注入 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
长期对话语境导致LLM迎合用户观点形成回声室 02-18
LLM
个性化
回声室 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
ChatGPT推出锁定模式与高风险标签,防范提示词注入及数据外泄 02-18
ChatGPT
提示词注入
数据安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
2026年负责任AI进展报告 02-18
负责任AI
Responsible AI
AI伦理 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
长期对话导致LLM模仿用户观点并形成回声室 02-18
LLM
个性化
回声室 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
ChatGPT推出锁定模式与高风险标签以抵御提示注入 02-18
ChatGPT
提示注入
锁定模式 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
2026年度负责任人工智能进展报告 02-18
负责任AI
AI治理
合规 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
ChatGPT 推出锁定模式与高风险标签防御提示注入 02-18
ChatGPT
企业安全
提示注入 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
2026年度负责任人工智能进展报告 02-18
负责任AI
AI安全
模型治理 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
ChatGPT 推出锁定模式与高风险标签以防御提示词注入 02-17
ChatGPT
提示词注入
锁定模式 |
[自动]
[ARXIV] | 3min | school
恶意提示词分类器在真实分布偏移下的评估方法 02-17
LLM安全
提示词注入
越狱攻击 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
ChatGPT 推出锁定模式与高风险标签以防御提示注入 02-17
ChatGPT
提示注入
锁定模式 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
ChatGPT推出锁定模式与高风险标签防御提示词注入 02-16
ChatGPT
OpenAI
提示词注入 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
ChatGPT推出锁定模式与高风险标签以防御提示注入 02-16
ChatGPT
提示注入
锁定模式 |
[自动]
[HACKER_NEWS] | 4min | newspaper
电台主播指控谷歌NotebookLM语音克隆功能窃取其声音 02-16
NotebookLM
谷歌
语音克隆 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
ChatGPT 推出锁定模式与高风险标签以抵御提示注入 02-15
ChatGPT
提示注入
锁定模式 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
ChatGPT 推出锁定模式与高风险标签防御提示词注入 02-15
ChatGPT
提示词注入
锁定模式 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
ChatGPT 推出锁定模式与高风险标签,防御提示注入及数据外泄 02-14
ChatGPT
提示注入
数据安全 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
ChatGPT推出锁定模式与高危标签以防范提示词注入及数据外泄 02-14
ChatGPT
提示词注入
数据安全 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
ChatGPT 推出锁定模式与高风险标签防御提示词注入 02-14
ChatGPT
提示词注入
Prompt Injection |
[自动]
[HACKER_NEWS] | 4min | newspaper
OpenAI 使命声明演变:从通用人工智能到造福人类 02-14
OpenAI
使命声明
AGI |
[自动]
[BLOGS_PODCASTS] | 2min | mic
ChatGPT推出锁定模式与高风险标签防御提示词注入 02-13
ChatGPT
OpenAI
提示词注入 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
ChatGPT推出锁定模式与高风险标记以防御提示词注入 02-13
ChatGPT
提示词注入
企业安全 |
[自动]
[HACKER_NEWS] | 3min | newspaper
评估多语言上下文护栏:人道主义大模型应用 02-13
LLM
护栏
多语言 |
[自动]
[HACKER_NEWS] | 3min | newspaper
尼克·博斯特罗姆新论文探讨超级智能的启动时机 02-13
超级智能
尼克·博斯特罗姆
AI安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenEnv实践:评估真实环境中的工具调用智能体 02-13
智能体
工具调用
OpenEnv |
[自动]
[HACKER_NEWS] | 3min | newspaper
评估多语言上下文护栏:人道主义LLM用例 02-13
LLM
护栏
多语言 |
[自动]
[HACKER_NEWS] | 3min | newspaper
大语言模型面临的幻觉与逻辑推理局限 02-12
LLM
幻觉
逻辑推理 |
[自动]
[HACKER_NEWS] | 4min | newspaper
大语言模型在逻辑推理与事实准确性上的局限 02-12
LLM
逻辑推理
事实准确性 |
[自动]
[ARXIV] | 3min | school
LLM盲区偏差检测:识别模型未提及内容 02-11
LLM
偏见检测
模型评估 |
[自动]
[BLOGS_PODCASTS] | 1min | mic
Automated Reasoning checks rewriting chatbot reference 02-11
自动化推理
聊天机器人
参考实现 |
[自动]
[ARXIV] | 1min | school
Moltbook 漏洞:自进化 AI 社会中 Anthropic 安全机制失效 02-11
Anthropic
AI安全
对齐 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI在GenAI.mil部署定制版ChatGPT以服务美国防务团队 02-10
OpenAI
ChatGPT
GenAI.mil |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI在GenAI.mil部署定制ChatGPT服务美国国防团队 02-10
OpenAI
ChatGPT
GenAI.mil |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Goodfire AI:打造首个机制可解释性实验室与企业级API 02-10
Goodfire AI
机制可解释性
Mechanistic Interpretability |
[自动]
[HACKER_NEWS] | 4min | newspaper
基于人类反馈的强化学习:原理与应用 02-07
RLHF
强化学习
人类反馈 |
[自动]
[HACKER_NEWS] | 5min | newspaper
让信任变得无关紧要:玩家视角下的智能体安全 02-07
智能体
Agent安全
游戏理论 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
首个机制可解释性前沿实验室:Goodfire AI 团队专访 02-07
机制可解释性
Goodfire AI
AI安全 |
[自动]
[HACKER_NEWS] | 4min | newspaper
评估与缓解大模型发现零日漏洞的新兴风险 02-07
LLM
零日漏洞
漏洞挖掘 |
[自动]
[HACKER_NEWS] | 4min | newspaper
评估与缓解大模型发现的零日漏洞风险 02-07
LLM
零日漏洞
漏洞挖掘 |
[自动]
[ARXIV] | 4min | school
研究揭示推理大模型生成虚假新闻的内在机制 02-06
LLM
CoT
虚假新闻 |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型内部冲突 02-05
越狱
心理攻击
模型对齐 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Anthropic Claude Opus 4.6 挖掘开源代码500个零日漏洞 02-05
Anthropic
Claude Opus
零日漏洞 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Sora Feed理念:个性化推荐与安全护栏构建 02-04
Sora
个性化推荐
内容安全 |
[自动]
[HACKER_NEWS] | 3min | newspaper
模型对齐偏差如何随智能水平与任务复杂度演变 02-03
模型对齐
智能水平
任务复杂度 |
[自动]
[HACKER_NEWS] | 4min | newspaper
模型智能与任务复杂度如何影响对齐偏差 02-03
对齐
模型智能
任务复杂度 |
[自动]
[HACKER_NEWS] | 4min | newspaper
模型对齐问题如何随智能水平与任务复杂度演变 02-03
模型对齐
智能水平
任务复杂度 |
[自动]
[ARXIV] | 4min | school
RedSage:网络安全通用大语言模型 02-01
RedSage
网络安全
LLM |
2026年一月
8 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 4min | newspaper
发现逾17.5万个Ollama AI实例公网暴露 01-31
Ollama
数据泄露
公网暴露 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
OpenAI 如何通过内置安全机制防范 AI 代理点击链接时的数据泄露与提示词注入 01-29
OpenAI
AI代理
数据泄露 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
EMEA青年与福祉资助金:50万欧元支持AI时代青年安全福祉研究 01-29
AI安全
青年福祉
NGO |
[自动]
[BLOGS_PODCASTS] | 2min | mic
EMEA青年与健康资助计划开放申请,50万欧元支持AI时代青年安全研究 01-29
AI安全
青年健康
资助计划 |
[自动]
[ARXIV] | 4min | school
💥MortalMATH:当推理目标遇上紧急场景,AI会“翻车”吗? 01-28
LLM
推理模型
MortalMATH |
[自动]
[ARXIV] | 4min | school
MortalMATH:当推理目标遇上紧急语境,冲突何解?🧠🔥 01-27
LLM
模型评估
安全对齐 |
[自动]
[HACKER_NEWS] | 3min | newspaper
警惕!💀 软件拉高出货时代来临!韭菜收割机全揭秘! 01-27
金融欺诈
拉高出货
AI安全 |
[自动]
[HACKER_NEWS] | 3min | newspaper
🔍 深度拆解:AI伪造数学证明的惊人真相!🚀 01-26
LLM
幻觉
数学证明 |
无匹配条目