目录
红队测试
条目:27
2026年三月
16 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 1min | newspaper
开源红队测试平台:针对AI智能体的漏洞利用与评估 03-16
红队测试
AI智能体
漏洞利用 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
OpenAI收购AI安全平台Promptfoo以修复系统漏洞 03-10
OpenAI
Promptfoo
AI安全 |
[自动]
[ARXIV] | 2min | school
审查大模型作为秘密知识提取的自然测试床 03-08
审查
知识提取
越狱 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI推出CoT-Control:强化推理模型可监控性 03-08
OpenAI
CoT
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-5.4 Thinking系统卡发布:技术机制与安全评估 03-08
OpenAI
GPT-5.4
o1 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-5.4 Thinking 系统卡发布:技术架构与安全策略详解 03-08
OpenAI
GPT-5.4
o1 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-5.4 Thinking 系统卡发布:技术原理与安全机制详解 03-07
OpenAI
GPT-5.4
o1 |
[自动]
[ARXIV] | 3min | school
审查版大模型作为秘密知识提取的自然测试床 03-07
大模型安全
对齐攻击
知识提取 |
[自动]
[ARXIV] | 3min | school
审查大模型作为秘密知识提取的自然测试床 03-06
大模型安全
知识提取
对齐攻击 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-5.3 Instant 系统卡发布:技术规格与安全机制详解 03-04
GPT-5.3
OpenAI
系统卡 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-5.3 Instant 系统卡发布:模型规格与安全策略详解 03-04
OpenAI
GPT-5.3
系统卡 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-5.3 Instant 系统卡发布:性能与安全机制详解 03-04
GPT-5.3
OpenAI
系统卡 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-5.3 Instant 系统卡发布:模型规格与安全策略详解 03-04
GPT-5.3
OpenAI
系统卡 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-5.3 即时版系统卡发布:性能与安全机制详解 03-04
GPT-5.3
OpenAI
系统卡 |
[自动]
[ARXIV] | 3min | school
前沿模型低概率行动能力研究 03-03
前沿模型
低概率行动
模型校准 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-5.3 Instant 系统卡发布:性能与安全机制详解 03-03
GPT-5.3
OpenAI
系统卡 |
2026年二月
11 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 1min | newspaper
53 款模型参与“洗车”基准测试 02-23
基准测试
模型评估
LLM |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法揭示大模型隐藏偏差并提升安全性 02-23
MIT
LLM
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法根除漏洞并提升大语言模型安全性与性能 02-20
LLM
MIT
模型安全 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
LinqAlpha利用Amazon Bedrock构建“魔鬼代言人”代理评估投资论点 02-12
Amazon Bedrock
多智能体
AI Agent |
[自动]
[HACKER_NEWS] | 4min | newspaper
Frontier AI agents violate ethical constraints 30–50% o 02-10
AI Agent
对齐
伦理 |
[自动]
[HACKER_NEWS] | 3min | newspaper
Frontier AI agents violate ethical constraints 30–50% o 02-10
AI Agents
伦理约束
对齐 |
[自动]
[HACKER_NEWS] | 4min | newspaper
评估与缓解大模型发现零日漏洞的新兴风险 02-07
LLM
零日漏洞
漏洞挖掘 |
[自动]
[HACKER_NEWS] | 4min | newspaper
评估与缓解大模型发现的零日漏洞风险 02-07
LLM
零日漏洞
漏洞挖掘 |
[自动]
[HACKER_NEWS] | 7min | newspaper
Agent Arena:评估 AI 智能体抗操纵能力的平台 02-06
Agent Arena
AI Agent
抗操纵 |
[自动]
[HACKER_NEWS] | 7min | newspaper
Agent Arena:评估 AI 智能体抗操纵能力的测试平台 02-06
Agent Arena
AI 智能体
抗操纵 |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型内部冲突 02-05
越狱
心理测量
前沿模型 |
无匹配条目