terminal

AI Stack

rss_feed
SYS_STABLE
目录

红队测试

条目:27
2026年三月 16 篇
类型阅读条目
[自动] [HACKER_NEWS]
1minnewspaper 开源红队测试平台:针对AI智能体的漏洞利用与评估
03-16 红队测试 AI智能体 漏洞利用
[自动] [BLOGS_PODCASTS]
4minmic OpenAI收购AI安全平台Promptfoo以修复系统漏洞
03-10 OpenAI Promptfoo AI安全
[自动] [ARXIV]
2minschool 审查大模型作为秘密知识提取的自然测试床
03-08 审查 知识提取 越狱
[自动] [BLOGS_PODCASTS]
2minmic OpenAI推出CoT-Control:强化推理模型可监控性
03-08 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.4 Thinking系统卡发布:技术机制与安全评估
03-08 OpenAI GPT-5.4 o1
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.4 Thinking 系统卡发布:技术架构与安全策略详解
03-08 OpenAI GPT-5.4 o1
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.4 Thinking 系统卡发布:技术原理与安全机制详解
03-07 OpenAI GPT-5.4 o1
[自动] [ARXIV]
3minschool 审查版大模型作为秘密知识提取的自然测试床
03-07 大模型安全 对齐攻击 知识提取
[自动] [ARXIV]
3minschool 审查大模型作为秘密知识提取的自然测试床
03-06 大模型安全 知识提取 对齐攻击
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.3 Instant 系统卡发布:技术规格与安全机制详解
03-04 GPT-5.3 OpenAI 系统卡
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.3 Instant 系统卡发布:模型规格与安全策略详解
03-04 OpenAI GPT-5.3 系统卡
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.3 Instant 系统卡发布:性能与安全机制详解
03-04 GPT-5.3 OpenAI 系统卡
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.3 Instant 系统卡发布:模型规格与安全策略详解
03-04 GPT-5.3 OpenAI 系统卡
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.3 即时版系统卡发布:性能与安全机制详解
03-04 GPT-5.3 OpenAI 系统卡
[自动] [ARXIV]
3minschool 前沿模型低概率行动能力研究
03-03 前沿模型 低概率行动 模型校准
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.3 Instant 系统卡发布:性能与安全机制详解
03-03 GPT-5.3 OpenAI 系统卡
2026年二月 11 篇
类型阅读条目
[自动] [HACKER_NEWS]
1minnewspaper 53 款模型参与“洗车”基准测试
02-23 基准测试 模型评估 LLM
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法揭示大模型隐藏偏差并提升安全性
02-23 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法根除漏洞并提升大语言模型安全性与性能
02-20 LLM MIT 模型安全
[自动] [BLOGS_PODCASTS]
2minmic LinqAlpha利用Amazon Bedrock构建“魔鬼代言人”代理评估投资论点
02-12 Amazon Bedrock 多智能体 AI Agent
[自动] [HACKER_NEWS]
4minnewspaper Frontier AI agents violate ethical constraints 30–50% o
02-10 AI Agent 对齐 伦理
[自动] [HACKER_NEWS]
3minnewspaper Frontier AI agents violate ethical constraints 30–50% o
02-10 AI Agents 伦理约束 对齐
[自动] [HACKER_NEWS]
4minnewspaper 评估与缓解大模型发现零日漏洞的新兴风险
02-07 LLM 零日漏洞 漏洞挖掘
[自动] [HACKER_NEWS]
4minnewspaper 评估与缓解大模型发现的零日漏洞风险
02-07 LLM 零日漏洞 漏洞挖掘
[自动] [HACKER_NEWS]
7minnewspaper Agent Arena:评估 AI 智能体抗操纵能力的平台
02-06 Agent Arena AI Agent 抗操纵
[自动] [HACKER_NEWS]
7minnewspaper Agent Arena:评估 AI 智能体抗操纵能力的测试平台
02-06 Agent Arena AI 智能体 抗操纵
[自动] [HACKER_NEWS]
3minnewspaper 心理越狱揭示前沿模型内部冲突
02-05 越狱 心理测量 前沿模型