terminal

AI Stack

rss_feed
SYS_STABLE
目录

安全

条目:520
2026年四月 11 篇
类型阅读条目
[自动] [HACKER_NEWS]
1minnewspaper Gas Town被质疑窃取用户LLM用量进行自我优化
04-15 GasTown LLM滥用 用户隐私
[自动] [HACKER_NEWS]
1minnewspaper AI编程工具的隐藏风险
04-14 AI编程风险 安全问题 代码质量
[自动] [ARXIV]
1minschool 大语言模型生成有害内容的统一机制
04-13 大语言模型 有害内容 权重剪枝
[自动] [JUEJIN]
1minsticky_note_2 AI周报:Anthropic闭门发模型、阿里HappyHorse登顶、线下矛盾升温
04-12 Anthropic Claude Mythos 闭门模型
[自动] [HACKER_NEWS]
1minnewspaper 小模型复现Mythos漏洞检测成果
04-12 小模型 漏洞检测 Mythos
[自动] [HACKER_NEWS]
1minnewspaper 小型模型复现Mythos漏洞检测能力
04-11 漏洞检测 小型模型 Mythos
[自动] [JUEJIN]
1minsticky_note_2 AI具备思考能力时人类面临的准备挑战
04-11 AI思考能力 就业结构 数据隐私
[自动] [BLOGS_PODCASTS]
1minmic OpenAI儿童安全蓝图:负责任AI开发路线图
04-08 儿童安全 负责任AI 安全防护
[自动] [HACKER_NEWS]
1minnewspaper Project Glasswing:AI时代关键软件安全方案
04-08 AI安全 关键软件 Glasswing
[自动] [HACKER_NEWS]
1minnewspaper 玻璃翼项目:保护AI时代关键软件
04-07 玻璃翼 AI安全 关键软件
[自动] [JUEJIN]
1minsticky_note_2 Claude Code源码泄漏:AI编程助手的安全启示
04-05 Claude Code 源码泄漏 AI安全
2026年三月 206 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
2minmic OpenAI思维链监控:检测内部编码智能体对齐失败
03-20 思维链监控 对齐失败 AI安全
[自动] [HACKER_NEWS]
1minnewspaper 研究称小丑妆容可干扰面部识别技术
03-20 面部识别 小丑妆容 人工智能
[自动] [ARXIV]
2minschool 机器人基础模型的规范感知分布塑造
03-19 机器人基础模型 规格感知 分布优化
[自动] [HACKER_NEWS]
1minnewspaper 面向未审查AI生成代码的自动化验证技术
03-17 代码审查 自动化验证 AI生成代码
[自动] [HACKER_NEWS]
1minnewspaper 面向未审查AI生成代码的自动化验证研究
03-17 代码验证 AI生成代码 自动化测试
[自动] [BLOGS_PODCASTS]
4minmic 利用 AI 自动化重构代码以实现 Android 应用安全默认配置
03-17 Android 代码重构 自动化
[自动] [BLOGS_PODCASTS]
2minmic 面向安全默认Android应用的AI代码修改技术
03-17 Android AI Codemods 移动安全
[自动] [BLOGS_PODCASTS]
3minmic Patch Me If You Can: AI Codemods for Secure-by-Default
03-17 AI Codemods Android 静态分析
[自动] [ARXIV]
3minschool 可学习性与隐私漏洞纠缠于少数关键权重
03-17 隐私保护 机器学习 成员推断
[自动] [BLOGS_PODCASTS]
3minmic 利用AI代码改造实现Android应用默认安全
03-16 Android AI Codemods 代码重构
[自动] [BLOGS_PODCASTS]
2minmic 为何 Codex Security 不采用 SAST 报告:利用 AI 约束推理与验证减少误报
03-16 SAST 误报消除 漏洞检测
[自动] [ARXIV]
3minschool 可学习性与隐私漏洞纠缠于少数关键权重
03-16 隐私保护 神经网络 模型权重
[自动] [BLOGS_PODCASTS]
1minmic 利用Bedrock AgentCore策略构建确定性执行层以管控AI代理
03-16 Amazon Bedrock AgentCore AI 代理
[自动] [BLOGS_PODCASTS]
4minmic AI 代码修改技术助力 Android 应用实现默认安全
03-16 Android 代码修复 Meta
[自动] [HACKER_NEWS]
1minnewspaper Agent Skills:面向智能体的开放安全数据库
03-16 Agent 智能体 安全数据库
[自动] [BLOGS_PODCASTS]
3minmic 利用 Amazon Bedrock AgentCore Policy 精细化管控 AI Agent 工具访问
03-16 Amazon Bedrock AgentCore AI Agent
[自动] [BLOGS_PODCASTS]
2minmic AI 代码修改技术助力 Android 应用实现默认安全
03-16 AI Codemods Android安全 默认安全
[自动] [BLOGS_PODCASTS]
4minmic 利用 Bedrock AgentCore Policy 实施细粒度管控与安全防护
03-16 Amazon Bedrock AgentCore Cedar策略
[自动] [BLOGS_PODCASTS]
3minmic AI Codemods 助力 Android 应用实现默认安全
03-16 AI Codemods Android 代码重构
[自动] [ARXIV]
3minschool STAMP:面向文本隐私的选择性任务感知机制
03-16 隐私保护 文本隐私 STAMP
[自动] [HACKER_NEWS]
1minnewspaper 开源红队测试平台:针对AI智能体的漏洞利用与评估
03-16 红队测试 AI智能体 漏洞利用
[自动] [BLOGS_PODCASTS]
2minmic 大规模识别LLM交互:提升可解释性与安全性的归因方法
03-15 LLM 可解释性 归因分析
[自动] [ARXIV]
3minschool 基于学习冲突的增量神经网络验证方法
03-15 神经网络验证 增量验证 形式化验证
[自动] [BLOGS_PODCASTS]
3minmic 利用Amazon Bedrock AgentCore Policy实现AI Agent的细粒度访问控制
03-15 Amazon Bedrock AgentCore AI Agent
[自动] [ARXIV]
3minschool STAMP:面向文本隐私的选择性任务感知机制
03-15 STAMP 文本隐私 差分隐私
[自动] [BLOGS_PODCASTS]
3minmic AI Codemods:构建安全优先的 Android 应用
03-15 AI Codemods Android 代码重构
[自动] [JUEJIN]
1minsticky_note_2 315晚会曝光大模型投毒:操纵AI推荐虚假信息
03-15 数据投毒 AI安全 315晚会
[自动] [HACKER_NEWS]
1minnewspaper 网页指令与凭证泄露:自动化代理的安全风险
03-15 AI Agent 安全风险 凭证泄露
[自动] [BLOGS_PODCASTS]
2minmic 识别大模型交互机制以提升可解释性与安全性
03-14 LLM 可解释性 SPEX
[自动] [ARXIV]
3minschool 增量神经网络验证:基于学习冲突的高效方法
03-14 神经网络验证 增量验证 形式化验证
[自动] [BLOGS_PODCASTS]
4minmic 利用 Amazon Bedrock AgentCore Policy 构建 AI Agent 确定性执行层
03-14 Amazon Bedrock AgentCore AI Agent
[自动] [ARXIV]
3minschool STAMP:面向文本隐私的选择性任务感知机制
03-14 STAMP 文本隐私 差分隐私
[自动] [BLOGS_PODCASTS]
3minmic AI 代码改造助力构建默认安全的 Android 应用
03-14 Android 代码重构 默认安全
[自动] [BLOGS_PODCASTS]
4minmic 构建确定性执行层:利用 Amazon Bedrock AgentCore 策略管控 AI Agent
03-14 Amazon Bedrock AgentCore AI Agent
[自动] [BLOGS_PODCASTS]
4minmic 构建确定性执行层:利用 Amazon Bedrock AgentCore 策略管控 AI Agent
03-14 Amazon Bedrock AgentCore AI Agent
[自动] [BLOGS_PODCASTS]
2minmic AI Codemods:利用自动化修复实现Android应用默认安全
03-14 AI Codemods Android 代码重构
[自动] [BLOGS_PODCASTS]
4minmic 构建确定性执行层:利用 Amazon Bedrock AgentCore Policy 管控 AI Agent
03-13 Amazon Bedrock AgentCore AI Agent
[自动] [ARXIV]
3minschool 增量神经网络验证:基于学习冲突的高效方法
03-13 神经网络验证 增量验证 形式化验证
[自动] [ARXIV]
3minschool STAMP:面向文本隐私的选择性任务感知机制
03-13 STAMP 文本隐私 差分隐私
[自动] [BLOGS_PODCASTS]
3minmic Patch Me If You Can: AI Codemods for Secure-by-Default
03-13 AI Codemods Android 移动安全
[自动] [BLOGS_PODCASTS]
5minmic 构建确定性 AI 代理安全层:利用 Amazon Bedrock AgentCore 策略
03-13 Amazon Bedrock AgentCore AI Agent
[自动] [BLOGS_PODCASTS]
4minmic Patch Me If You Can: AI Codemods for Secure-by-Default
03-13 AI Codemods Android 代码重构
[自动] [BLOGS_PODCASTS]
4minmic 构建安全的 Amazon Bedrock 智能体:利用 AgentCore Policy 实现工具调用合规
03-13 Amazon Bedrock AgentCore Policy
[自动] [BLOGS_PODCASTS]
2minmic ChatGPT 代理工作流防御提示词注入与数据泄露的设计策略
03-13 LLM AI Agent 提示词注入
[自动] [HACKER_NEWS]
2minnewspaper RAG系统文档投毒攻击:如何污染AI数据源
03-13 RAG LLM 提示注入
[自动] [BLOGS_PODCASTS]
2minmic 设计抗提示注入的AI代理:限制高风险操作与保护敏感数据
03-13 AI Agent 提示注入 系统安全
[自动] [BLOGS_PODCASTS]
4minmic 基于 Bedrock AgentCore 策略构建确定性执行层以管控 AI 智能体
03-13 Bedrock AgentCore AI 智能体 Cedar 策略
[自动] [HACKER_NEWS]
1minnewspaper RAG系统文档投毒攻击:如何污染AI数据源
03-13 RAG 数据投毒 提示注入
[自动] [HACKER_NEWS]
1minnewspaper RAG系统文档投毒攻击:如何污染AI数据源
03-13 RAG 数据投毒 提示词注入
[自动] [HACKER_NEWS]
2minnewspaper RAG系统文档投毒攻击:如何污染AI知识源
03-13 RAG 提示词注入 数据投毒
[自动] [BLOGS_PODCASTS]
3minmic 利用 Amazon Bedrock AgentCore Policy 实现安全访问
03-13 Amazon Bedrock AgentCore Cedar
[自动] [HACKER_NEWS]
1minnewspaper Show HN: OneCLI – 用 Rust 构建的 AI Agent 凭据管理工具
03-13 Rust AI Agent 凭据管理
[自动] [HACKER_NEWS]
1minnewspaper RAG系统文档投毒攻击:如何通过污染数据源破坏AI
03-13 RAG 数据投毒 提示词注入
[自动] [BLOGS_PODCASTS]
4minmic 构建安全的 Amazon Bedrock 代理:利用 AgentCore Policy 实现细粒度访问控制
03-12 Amazon Bedrock AgentCore Cedar
[自动] [HACKER_NEWS]
2minnewspaper RAG系统文档投毒攻击:攻击者如何污染AI数据源
03-12 RAG LLM 数据投毒
[自动] [HACKER_NEWS]
1minnewspaper OneCLI:用 Rust 构建的 AI Agent 密钥管理工具
03-12 Rust AI Agent 密钥管理
[自动] [BLOGS_PODCASTS]
3minmic ChatGPT防御提示注入:限制风险操作与保护敏感数据
03-12 提示注入 Prompt Injection AI Agent
[自动] [HACKER_NEWS]
4minnewspaper Show HN: OneCLI – 用 Rust 构建的 AI Agent 密钥管理工具
03-12 Rust AI Agent 密钥管理
[自动] [BLOGS_PODCASTS]
2minmic ChatGPT防御提示词注入与社会工程攻击的机制
03-12 ChatGPT 提示词注入 社会工程学
[自动] [HACKER_NEWS]
1minnewspaper Show HN: OneCLI – 用 Rust 构建的 AI Agents 凭据管理工具
03-12 Rust AI Agents 凭据管理
[自动] [BLOGS_PODCASTS]
2minmic 设计AI代理抵御提示注入与保护敏感数据的方法
03-12 Prompt Injection AI Agents ChatGPT
[自动] [HACKER_NEWS]
1minnewspaper Show HN: 面向 Claude Code 的上下文感知权限守卫
03-12 Claude Code 权限管理 上下文感知
[自动] [HACKER_NEWS]
1minnewspaper Show HN: 面向 Claude Code 的上下文感知权限守卫
03-12 Claude Code 权限管理 上下文感知
[自动] [HACKER_NEWS]
1minnewspaper 面向 Claude Code 的上下文感知权限守卫工具
03-12 Claude Code 权限管理 上下文感知
[自动] [HACKER_NEWS]
1minnewspaper 团队披露 McKinsey AI 平台漏洞利用细节与安全机制
03-12 McKinsey AI 平台 漏洞利用
[自动] [BLOGS_PODCASTS]
2minmic ChatGPT防范提示注入:限制高风险操作与保护敏感数据
03-11 提示注入 Prompt Injection AI Agent
[自动] [HACKER_NEWS]
1minnewspaper 如何入侵麦肯锡AI平台
03-11 麦肯锡 AI平台 安全漏洞
[自动] [HACKER_NEWS]
3minnewspaper 我们如何攻破麦肯锡AI平台的安全漏洞
03-11 麦肯锡 AI平台 安全漏洞
[自动] [BLOGS_PODCASTS]
2minmic IH-Challenge训练提升前沿大模型指令层级与安全性
03-11 指令层级 IH-Challenge 提示词注入
[自动] [BLOGS_PODCASTS]
2minmic ChatGPT 代理工作流防范提示注入与社会工程学攻击
03-11 ChatGPT 提示注入 社会工程学
[自动] [BLOGS_PODCASTS]
2minmic IH-Challenge训练提升前沿大模型指令层级与防御能力
03-11 指令层级 IH-Challenge 提示注入
[自动] [BLOGS_PODCASTS]
2minmic IH-Challenge提升前沿大模型指令层级与安全性
03-11 IH-Challenge 指令层级 提示注入
[自动] [BLOGS_PODCASTS]
2minmic IH-Challenge提升前沿大模型指令层级与安全防御能力
03-11 LLM 指令层级 安全防御
[自动] [HACKER_NEWS]
1minnewspaper Debian 暂不对 AI 生成代码贡献做出决策
03-11 Debian AI生成代码 开源贡献
[自动] [HACKER_NEWS]
1minnewspaper Debian 暂不决定是否接受 AI 生成代码贡献
03-11 Debian AI生成代码 开源贡献
[自动] [JUEJIN]
1minsticky_note_2 美国国家实验室:30张图3D重建化工厂气体泄漏
03-11 NeRF 3D重建 气体检测
[自动] [BLOGS_PODCASTS]
2minmic IH-Challenge训练提升前沿大模型指令层级与安全性
03-11 IH-Challenge 指令层级 提示注入
[自动] [HACKER_NEWS]
1minnewspaper Debian 暂不对 AI 生成代码贡献做出决策
03-11 Debian AI生成代码 开源贡献
[自动] [HACKER_NEWS]
1minnewspaper Debian 暂不对 AI 生成代码贡献制定决策
03-11 Debian AI生成代码 开源贡献
[自动] [HACKER_NEWS]
1minnewspaper Cursor Cloud Agent 的安全密钥管理方案
03-11 Cursor Cloud Agent 密钥管理
[自动] [BLOGS_PODCASTS]
2minmic IH-Challenge训练提升前沿大模型指令层级与抗攻击能力
03-10 IH-Challenge 指令层级 Prompt Injection
[自动] [BLOGS_PODCASTS]
2minmic IH-Challenge提升前沿大模型指令层级与抗攻击能力
03-10 LLM 指令层级 IH-Challenge
[自动] [HACKER_NEWS]
1minnewspaper Debian 暂不决定是否接纳 AI 生成代码贡献
03-10 Debian AI生成代码 开源贡献
[自动] [BLOGS_PODCASTS]
3minmic OpenAI 收购 AI 安全平台 Promptfoo 以修复系统漏洞
03-10 OpenAI Promptfoo AI安全
[自动] [BLOGS_PODCASTS]
1minmic IH-Challenge 训练提升前沿模型指令层级与抗注入能力
03-10 指令层级 提示注入 IH-Challenge
[自动] [BLOGS_PODCASTS]
2minmic 提升AI模型解释能力以增强安全关键领域可信度
03-10 可解释性 XAI 安全关键
[自动] [BLOGS_PODCASTS]
2minmic 提升AI模型解释能力以增强关键领域可信度
03-10 可解释性 黑箱问题 反事实解释
[自动] [BLOGS_PODCASTS]
2minmic 提升AI模型在医疗与自动驾驶等场景的可解释性
03-10 可解释性 XAI 医疗AI
[自动] [BLOGS_PODCASTS]
4minmic OpenAI 收购 AI 安全平台 Promptfoo 以强化系统漏洞修复能力
03-10 OpenAI Promptfoo AI安全
[自动] [BLOGS_PODCASTS]
2minmic 新方法提升AI模型可解释性 助力医疗与自动驾驶可信度评估
03-10 可解释性 模型评估 医疗AI
[自动] [BLOGS_PODCASTS]
4minmic OpenAI收购AI安全平台Promptfoo以修复系统漏洞
03-10 OpenAI Promptfoo AI安全
[自动] [HACKER_NEWS]
1minnewspaper AI重新实现与Copyleft侵蚀:法律与正当性的辨析
03-10 AI Copyleft 法律
[自动] [BLOGS_PODCASTS]
2minmic 提升AI模型在医疗与自动驾驶场景中的可解释性
03-10 XAI 可解释性 医疗AI
[自动] [BLOGS_PODCASTS]
3minmic Codex Security 预览:AI 代理分析上下文检测修补漏洞
03-10 AI 代理 漏洞检测 自动化修复
[自动] [BLOGS_PODCASTS]
2minmic 提升AI模型解释能力以增强医疗与自动驾驶预测可信度
03-10 可解释性 XAI 医疗AI
[自动] [BLOGS_PODCASTS]
3minmic OpenAI 收购 AI 安全平台 Promptfoo 以修复开发阶段漏洞
03-10 OpenAI Promptfoo AI安全
[自动] [BLOGS_PODCASTS]
2minmic Codex Security 预览:AI 代理分析项目上下文检测修复漏洞
03-10 AI Agent 漏洞检测 代码安全
[自动] [ARXIV]
3minschool 针对个人隐私移除技术的可信攻击研究困境
03-10 隐私保护 PII 数据脱敏
[自动] [BLOGS_PODCASTS]
2minmic 提升AI模型解释能力以增强安全关键应用的可信度
03-10 可解释性 XAI 安全关键应用
[自动] [BLOGS_PODCASTS]
2minmic OpenAI 收购 AI 安全平台 Promptfoo 以强化漏洞修复
03-10 OpenAI Promptfoo AI安全
[自动] [BLOGS_PODCASTS]
2minmic Codex Security 预览:AI 代理分析上下文以高置信度修复漏洞
03-10 AI 代理 漏洞修复 应用安全
[自动] [HACKER_NEWS]
1minnewspaper AI 重新实现与 Copyleft 侵蚀:法律与合法性的辨析
03-10 AI 开源协议 Copyleft
[自动] [HACKER_NEWS]
1minnewspaper AI重新实现与Copyleft侵蚀:合法与正当性辨析
03-10 AI Copyleft 开源协议
[自动] [BLOGS_PODCASTS]
2minmic 提升AI模型解释能力以增强安全关键应用可信度
03-09 可解释性 XAI 安全关键应用
[自动] [BLOGS_PODCASTS]
2minmic OpenAI 收购 AI 安全平台 Promptfoo 以修复系统漏洞
03-09 OpenAI Promptfoo AI安全
[自动] [BLOGS_PODCASTS]
3minmic Codex Security 预览:AI 代理分析项目上下文以检测并修补漏洞
03-09 Codex Security AI 代理 漏洞检测
[自动] [BLOGS_PODCASTS]
3minmic Codex Security:分析项目上下文以检测修复复杂漏洞
03-09 Codex Security AI Agent 漏洞检测
[自动] [BLOGS_PODCASTS]
2minmic 新方法提升AI模型可解释性以增强关键领域信任度
03-09 可解释性 XAI 模型信任
[自动] [BLOGS_PODCASTS]
2minmic 提升AI模型解释能力以增强安全关键应用可信度
03-09 可解释性 模型信任度 安全关键应用
[自动] [BLOGS_PODCASTS]
3minmic OpenAI收购AI安全平台Promptfoo以修复系统漏洞
03-09 OpenAI Promptfoo AI安全
[自动] [BLOGS_PODCASTS]
3minmic Codex Security 预览:AI 代理检测并修复复杂漏洞
03-09 AI Agent 漏洞检测 代码安全
[自动] [BLOGS_PODCASTS]
2minmic 提升AI模型解释能力以增强安全关键应用的可信度
03-09 可解释性 XAI 安全关键应用
[自动] [BLOGS_PODCASTS]
3minmic Codex Security 预览:AI 代理分析项目上下文以检测修复漏洞
03-09 Codex Security AI Agent 漏洞检测
[自动] [HACKER_NEWS]
3minnewspaper Agent Safehouse:macOS 原生沙箱技术保护本地 Agent
03-09 Agent macOS 沙箱技术
[自动] [BLOGS_PODCASTS]
2minmic 提升AI模型解释能力以增强安全关键应用可信度
03-09 可解释性 XAI 模型安全
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.4 Thinking 系统卡发布:技术原理与安全机制详解
03-09 GPT-5.4 Thinking 系统卡
[自动] [BLOGS_PODCASTS]
3minmic Codex Security 预览:AI 代理分析上下文并修复复杂漏洞
03-09 AI 代理 漏洞修复 应用安全
[自动] [HACKER_NEWS]
1minnewspaper Agent Safehouse:基于 macOS 原生沙箱的本地 Agent 隔离技术
03-09 Agent macOS 沙箱
[自动] [BLOGS_PODCASTS]
2minmic OpenAI推出CoT-Control:强化推理模型思维链的可监控性
03-09 OpenAI CoT 思维链
[自动] [HACKER_NEWS]
1minnewspaper Agent Safehouse:利用 macOS 原生沙箱实现本地 Agent 隔离
03-09 Agent macOS 沙箱
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.4 Thinking 系统卡发布:揭示模型推理机制与安全策略
03-09 GPT-5.4 Thinking 系统卡
[自动] [HACKER_NEWS]
1minnewspaper Agent Safehouse:基于 macOS 原生沙箱的本地 Agent 隔离方案
03-09 Agent Safehouse macOS 沙箱
[自动] [HACKER_NEWS]
1minnewspaper Agent Safehouse:macOS 本地 Agent 的原生沙箱方案
03-09 Agent Safehouse macOS 沙箱
[自动] [HACKER_NEWS]
1minnewspaper Agent Safehouse:macOS 原生沙箱,用于隔离本地 Agent
03-09 Agent Safehouse macOS 沙箱
[自动] [BLOGS_PODCASTS]
2minmic OpenAI发现推理模型难以控制思维链凸显可监控性安全价值
03-09 OpenAI 思维链 CoT
[自动] [BLOGS_PODCASTS]
3minmic Codex Security 预览:AI 代理分析上下文检测修复漏洞
03-09 Codex Security AI Agent 漏洞检测
[自动] [ARXIV]
3minschool 审查大模型作为秘密知识提取的自然测试床
03-09 大模型安全 知识提取 审查机制
[自动] [ARXIV]
2minschool 审查大模型作为秘密知识提取的自然测试床
03-08 审查 知识提取 越狱
[自动] [JUEJIN]
2minsticky_note_2 OpenClaw深度解析七:共享服务器部署的安全模型与沙盒
03-08 OpenClaw 沙盒 多租户
[自动] [BLOGS_PODCASTS]
2minmic OpenAI推出CoT-Control:强化推理模型可监控性
03-08 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.4 Thinking系统卡发布:技术机制与安全评估
03-08 OpenAI GPT-5.4 o1
[自动] [BLOGS_PODCASTS]
3minmic Codex Security 预览:AI 代理分析项目上下文检测修复漏洞
03-08 AI 代理 应用安全 漏洞检测
[自动] [HACKER_NEWS]
1minnewspaper Agent Safehouse:macOS 本地代理的原生沙箱方案
03-08 Agent Safehouse macOS 沙箱
[自动] [HACKER_NEWS]
1minnewspaper Agent Safehouse:macOS 原生沙箱,用于本地 Agent 隔离
03-08 Agent Safehouse macOS 沙箱
[自动] [BLOGS_PODCASTS]
2minmic OpenAI研究:推理模型难控思维链凸显可监控性价值
03-08 OpenAI 推理模型 思维链
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.4 Thinking 系统卡发布:技术架构与安全策略详解
03-08 OpenAI GPT-5.4 o1
[自动] [BLOGS_PODCASTS]
2minmic OpenAI推出CoT-Control:强化推理模型思维链的可监控性
03-08 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]
2minmic Codex Security 预览:AI 代理分析上下文检测并修复漏洞
03-08 AI 代理 漏洞检测 应用安全
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.4 Thinking 系统卡发布:技术原理与安全机制详解
03-07 OpenAI GPT-5.4 o1
[自动] [ARXIV]
3minschool 审查版大模型作为秘密知识提取的自然测试床
03-07 大模型安全 对齐攻击 知识提取
[自动] [BLOGS_PODCASTS]
3minmic Codex Security 预览:AI 代理检测并修补复杂漏洞
03-07 AI Agent 漏洞检测 自动化修复
[自动] [BLOGS_PODCASTS]
2minmic OpenAI研究:推理模型思维链难控强化可监控安全性
03-07 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]
3minmic Codex Security 预览:AI 智能体上下文感知检测与修复漏洞
03-07 Codex Security AI Agent 漏洞检测
[自动] [BLOGS_PODCASTS]
2minmic OpenAI研究揭示推理模型思维链难以控制凸显可监控性重要性
03-07 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]
3minmic Codex Security:分析上下文以检测并修补复杂漏洞
03-07 Codex Security AI 安全代理 漏洞检测
[自动] [BLOGS_PODCASTS]
2minmic OpenAI研究:推理模型思维链难控强化可监控性
03-07 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.4 Thinking 系统卡发布:推理架构与安全机制详解
03-07 GPT-5.4 Thinking 系统卡
[自动] [BLOGS_PODCASTS]
2minmic OpenAI研究:推理模型难以控制思维链,强化可监控性安全价值
03-07 OpenAI CoT 思维链
[自动] [ARXIV]
3minschool 审查大模型作为秘密知识提取的自然测试床
03-06 大模型安全 知识提取 对齐攻击
[自动] [BLOGS_PODCASTS]
2minmic OpenAI研究:推理模型难以控制思维链凸显可监控性价值
03-06 OpenAI 思维链 CoT
[自动] [BLOGS_PODCASTS]
3minmic Codex Security 预览:AI代理检测并修复复杂漏洞
03-06 AI Agent 漏洞检测 代码安全
[自动] [BLOGS_PODCASTS]
2minmic OpenAI推出CoT-Control:强化推理模型思维链监控
03-06 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.4思维系统卡:推理机制与安全策略详解
03-06 GPT-5.4 思维链 推理机制
[自动] [BLOGS_PODCASTS]
1minmic OpenAI推CoT-Control:验证思维链可监控性对AI安全的重要性
03-06 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]
3minmic Codex Security 预览:分析上下文以高置信度检测并修复漏洞
03-06 Codex Security 漏洞检测 应用安全
[自动] [BLOGS_PODCASTS]
2minmic OpenAI研究:推理模型思维链难以控制凸显可监控性重要性
03-06 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]
3minmic GPT-5.4 Thinking 系统卡发布:技术原理与安全机制详解
03-06 OpenAI GPT-5.4 o1
[自动] [JUEJIN]
2minsticky_note_2 HAPI 结合设备指纹认证提升远程编程安全性
03-06 HAPI 设备指纹 远程编程
[自动] [BLOGS_PODCASTS]
2minmic OpenAI推出CoT-Control:思维链难控凸显可监控性安全价值
03-06 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]
2minmic OpenAI研究:推理模型难以掌控思维链强化AI安全
03-06 OpenAI CoT 思维链
[自动] [ARXIV]
3minschool 基于对抗雅可比正则化的智能体AI系统鲁棒性增强方法
03-06 鲁棒性 对抗训练 多智能体
[自动] [JUEJIN]
2minsticky_note_2 Anthropic指控三家中国公司大规模蒸馏模型
03-06 Anthropic 模型蒸馏 数据安全
[自动] [ARXIV]
4minschool 基于对抗雅可比正则化的智能体系统鲁棒性增强方法
03-05 Agentic AI 鲁棒性 对抗训练
[自动] [BLOGS_PODCASTS]
2minmic OpenAI 推出 CoT-Control 并强调思维链监控的重要性
03-05 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]
1minmic GPT-5.4 Thinking 系统卡发布:技术原理与安全机制详解
03-05 OpenAI GPT-5.4 o1
[自动] [ARXIV]
4minschool 轻量级后门攻击针对多编码器扩散模型研究
03-05 后门攻击 Stable Diffusion 3 扩散模型
[自动] [ARXIV]
3minschool 基于内部激活监测生成过程中的突发奖励黑客行为
03-05 Reward Hacking 内部激活 Sparse Autoencoders
[自动] [HACKER_NEWS]
1minnewspaper 纽约拟立法禁止聊天机器人提供医疗法律工程建议
03-04 AI监管 聊天机器人 法律合规
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.3 Instant 系统卡发布:技术规格与安全机制详解
03-04 GPT-5.3 OpenAI 系统卡
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.3 Instant 系统卡发布:模型规格与安全策略详解
03-04 OpenAI GPT-5.3 系统卡
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.3 Instant 系统卡发布:性能与安全机制详解
03-04 GPT-5.3 OpenAI 系统卡
[自动] [HACKER_NEWS]
1minnewspaper AI编写软件时的验证责任归属与挑战
03-04 AI 编程 代码验证 责任归属
[自动] [JUEJIN]
2minsticky_note_2 基于 SLS 与 OpenTelemetry 构建 OpenClaw 可观测性体系
03-04 OpenClaw SLS OpenTelemetry
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.3 Instant 系统卡发布:模型规格与安全策略详解
03-04 GPT-5.3 OpenAI 系统卡
[自动] [ARXIV]
3minschool 多尺度自适应邻域感知Transformer用于图欺诈检测
03-04 图神经网络 欺诈检测 Transformer
[自动] [BLOGS_PODCASTS]
3minmic 利用 Amazon Bedrock Guardrails 构建安全的生成式 AI 应用
03-04 Amazon Bedrock Guardrails 生成式 AI
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.3 即时版系统卡发布:性能与安全机制详解
03-04 GPT-5.3 OpenAI 系统卡
[自动] [HACKER_NEWS]
1minnewspaper AI编写软件后的代码验证责任归属问题
03-04 AI 编程 代码审查 责任归属
[自动] [ARXIV]
4minschool Conformal Policy Control:基于保形预测的策略控制方法
03-04 保形预测 策略控制 RL
[自动] [ARXIV]
3minschool 前沿模型低概率行动能力研究
03-04 前沿模型 低概率行动 校准
[自动] [HACKER_NEWS]
1minnewspaper AI编写软件后的代码验证责任归属问题
03-04 AI 编程 代码审查 责任归属
[自动] [ARXIV]
3minschool 自适应置信度正则化用于多模态失效检测
03-03 多模态 失效检测 自动驾驶
[自动] [BLOGS_PODCASTS]
3minmic 构建安全的生成式 AI 应用:利用 Amazon Bedrock Guardrails
03-03 生成式 AI Amazon Bedrock Guardrails
[自动] [ARXIV]
3minschool 前沿模型低概率行动能力研究
03-03 前沿模型 低概率行动 模型校准
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.3 Instant 系统卡发布:性能与安全机制详解
03-03 GPT-5.3 OpenAI 系统卡
[自动] [HACKER_NEWS]
4minnewspaper AI 编写软件时代下的代码验证挑战
03-03 代码验证 AI 编程 软件质量
[自动] [BLOGS_PODCASTS]
3minmic 利用 Amazon Bedrock Guardrails 构建安全的生成式 AI 应用
03-03 Amazon Bedrock Guardrails 生成式 AI
[自动] [BLOGS_PODCASTS]
3minmic METR探讨指数级时间视界评估、威胁模型与AI生产力极限
03-03 METR AI评估 威胁模型
[自动] [HACKER_NEWS]
1minnewspaper 被盗 Gemini API 密钥致 48 小时内损失 8.2 万美元
03-03 Gemini API密钥 数据泄露
[自动] [HACKER_NEWS]
1minnewspaper M4苹果神经引擎逆向工程解析:架构与实现
03-03 Apple Silicon M4 Neural Engine
[自动] [BLOGS_PODCASTS]
3minmic 构建安全的生成式 AI 应用:利用 Amazon Bedrock Guardrails
03-03 Amazon Bedrock Guardrails 生成式 AI
[自动] [BLOGS_PODCASTS]
3minmic METR Joel Becker谈指数级时间视野评估与威胁模型
03-03 METR Joel Becker 时间视野评估
[自动] [HACKER_NEWS]
1minnewspaper M4苹果神经引擎逆向工程:架构解析
03-03 Apple Silicon M4 Neural Engine
[自动] [BLOGS_PODCASTS]
3minmic 利用Amazon Bedrock Guardrails构建安全生成式AI应用的最佳实践
03-02 Amazon Bedrock Guardrails 生成式 AI
[自动] [BLOGS_PODCASTS]
3minmic 利用 Amazon Bedrock Guardrails 构建安全生成式 AI 应用的最佳实践
03-02 Amazon Bedrock Guardrails 生成式 AI
[自动] [BLOGS_PODCASTS]
3minmic METR Joel Becker谈指数级时间视界评估与威胁模型
03-02 METR 模型评估 威胁模型
[自动] [HACKER_NEWS]
1minnewspaper M4苹果神经引擎逆向工程:架构与实现解析
03-02 Apple Silicon M4 Neural Engine
[自动] [BLOGS_PODCASTS]
3minmic 利用 Amazon Bedrock Guardrails 构建安全的生成式 AI 应用
03-02 Amazon Bedrock Guardrails 生成式 AI
[自动] [HACKER_NEWS]
1minnewspaper M4苹果神经引擎逆向工程:架构解析
03-02 Apple Silicon M4 Neural Engine
[自动] [BLOGS_PODCASTS]
2minmic METR探讨指数级时间视界评估、威胁模型与AI生产力边界
03-02 METR AI评估 威胁模型
[自动] [HACKER_NEWS]
1minnewspaper M4苹果神经引擎逆向工程解析:架构与实现
03-02 M4 Apple Neural Engine
[自动] [HACKER_NEWS]
1minnewspaper M4苹果神经引擎逆向工程解析:架构与机制
03-02 Apple Silicon M4 Neural Engine
[自动] [ARXIV]
3minschool 可控推理模型:具备隐私保护能力的思维链
03-02 隐私保护 思维链 可控推理
[自动] [ARXIV]
3minschool SafeGen-LLM:增强机器人系统任务规划的安全泛化能力
03-02 SafeGen-LLM 机器人 任务规划
[自动] [BLOGS_PODCASTS]
2minmic METR探讨指数级时间线评估、威胁模型与AI生产力边界
03-01 METR 指数级评估 威胁模型
[自动] [HACKER_NEWS]
1minnewspaper LLM生成文本检测:原理、方法与技术挑战
03-01 LLM 文本检测 AI安全
2026年二月 233 篇
类型阅读条目
[自动] [HACKER_NEWS]
1minnewspaper 不要信任AI智能体
02-28 AI智能体 安全风险 信任机制
[自动] [HACKER_NEWS]
1minnewspaper 不要信任 AI 智能体
02-28 AI智能体 安全风险 信任机制
[自动] [HACKER_NEWS]
1minnewspaper 不要信任 AI 智能体
02-28 AI 智能体 LLM 安全
[自动] [HACKER_NEWS]
1minnewspaper 不要盲目信任 AI 智能体
02-28 AI 智能体 信任机制 安全风险
[自动] [HACKER_NEWS]
1minnewspaper OpenAI 获准在美国防部机密网络部署 AI 模型
02-28 OpenAI 国防部 机密网络
[自动] [HACKER_NEWS]
1minnewspaper OpenAI 获准在美国防部机密网络部署 AI 模型
02-28 OpenAI 国防部 机密网络
[自动] [HACKER_NEWS]
1minnewspaper GitHub Copilot CLI 下载并执行恶意代码
02-28 GitHub Copilot CLI 恶意代码
[自动] [HACKER_NEWS]
1minnewspaper 构建安全可扩展的智能体沙箱基础设施
02-28 智能体 沙箱 基础设施
[自动] [JUEJIN]
2minsticky_note_2 基于DeepSeek-V3与Go构建企业级代码审计系统
02-28 DeepSeek-V3 Go语言 代码审计
[自动] [HACKER_NEWS]
1minnewspaper 我们构建了安全可扩展的 Agent 沙箱基础设施
02-27 Agent 沙箱 基础设施
[自动] [HACKER_NEWS]
1minnewspaper 逆向工程挑战:解析神经网络架构与参数
02-27 逆向工程 神经网络 模型安全
[自动] [HACKER_NEWS]
1minnewspaper 逆向工程神经网络:技术挑战与防御机制解析
02-27 模型提取 逆向工程 模型安全
[自动] [HACKER_NEWS]
1minnewspaper 逆向工程挑战:能否破解我们的神经网络架构
02-27 逆向工程 神经网络 模型安全
[自动] [HACKER_NEWS]
1minnewspaper 谷歌员工效仿Anthropic,要求制定军事AI红线
02-27 谷歌 Anthropic 军事AI
[自动] [HACKER_NEWS]
1minnewspaper 谷歌员工效仿Anthropic,要求为军事AI设定红线
02-27 谷歌 军事AI Anthropic
[自动] [ARXIV]
3minschool 现成图像模型可攻破图像保护方案
02-27 图像保护 对抗攻击 Stable Diffusion
[自动] [ARXIV]
3minschool 现成图生图模型可攻破主流图像保护方案
02-26 图像保护 对抗样本 图生图
[自动] [JUEJIN]
2minsticky_note_2 Android AI Agent四层架构与安全设计实战解析
02-26 Android AI Agent 系统架构
[自动] [HACKER_NEWS]
1minnewspaper Google API密钥曾非机密,但Gemini改变了规则
02-26 Google Gemini API密钥
[自动] [HACKER_NEWS]
2minnewspaper 谷歌API密钥曾非机密,但Gemini改变了规则
02-26 Google Gemini API密钥
[自动] [HACKER_NEWS]
1minnewspaper 谷歌DeepMind推出SynthID:为AI生成文本添加水印的技术
02-26 SynthID DeepMind 文本水印
[自动] [HACKER_NEWS]
1minnewspaper Anthropic 放弃其核心安全承诺
02-26 Anthropic AI安全 对齐
[自动] [HACKER_NEWS]
1minnewspaper Google API密钥曾非机密,但Gemini改变了规则
02-26 Google Gemini API密钥
[自动] [HACKER_NEWS]
1minnewspaper Anthropic 放弃核心安全承诺
02-26 Anthropic AI安全 大模型
[自动] [BLOGS_PODCASTS]
2minmic 2026年2月威胁报告:AI模型与社交平台结合的恶意利用及防御
02-26 威胁报告 恶意利用 AI安全
[自动] [HACKER_NEWS]
1minnewspaper 谷歌API密钥曾非机密 但Gemini改变了规则
02-26 API密钥 Google Gemini
[自动] [HACKER_NEWS]
3minnewspaper Anthropic 放弃其核心安全承诺
02-26 Anthropic AI安全 对齐
[自动] [HACKER_NEWS]
1minnewspaper 谷歌API密钥曾非机密,Gemini规则变更引发安全隐忧
02-26 Google Gemini API密钥
[自动] [HACKER_NEWS]
4minnewspaper 利用大语言模型实现大规模在线去匿名化
02-26 LLM 去匿名化 隐私攻击
[自动] [HACKER_NEWS]
3minnewspaper Anthropic 放弃核心安全承诺,不再发布高风险模型
02-26 Anthropic 模型安全 AI治理
[自动] [HACKER_NEWS]
1minnewspaper 利用大语言模型实现大规模在线去匿名化
02-26 LLM 去匿名化 隐私攻击
[自动] [BLOGS_PODCASTS]
2minmic 2026年2月威胁报告:AI模型结合网站与社交平台的恶意利用及防御
02-26 威胁报告 恶意利用 AI安全
[自动] [HACKER_NEWS]
1minnewspaper 谷歌API密钥非机密但Gemini改变规则
02-26 API密钥 Gemini 谷歌
[自动] [HACKER_NEWS]
1minnewspaper 利用大语言模型实现大规模在线用户去匿名化
02-26 LLM 去匿名化 隐私攻击
[自动] [BLOGS_PODCASTS]
2minmic 2026年2月威胁报告:AI模型结合网站与社交平台的恶意利用及防御
02-26 威胁报告 AI安全 恶意利用
[自动] [HACKER_NEWS]
1minnewspaper 利用大语言模型实现大规模在线去匿名化
02-26 去匿名化 隐私攻击 LLM
[自动] [JUEJIN]
1minsticky_note_2 2026年AI工具链演进:从代码生成到全链路安全审计
02-26 AI工具链 代码生成 安全审计
[自动] [BLOGS_PODCASTS]
2minmic 2026年2月威胁报告:AI模型结合社交平台的恶意利用及防御
02-26 威胁报告 恶意利用 AI安全
[自动] [HACKER_NEWS]
1minnewspaper 利用大语言模型实现大规模在线用户去匿名化
02-26 LLM 去匿名化 隐私攻击
[自动] [HACKER_NEWS]
1minnewspaper 基于LLM的大规模在线去匿名化研究
02-26 LLM 去匿名化 隐私攻击
[自动] [BLOGS_PODCASTS]
2minmic 2026年2月威胁报告:AI模型结合网站与社交平台的恶意利用及防御
02-25 威胁报告 恶意利用 AI安全
[自动] [HACKER_NEWS]
1minnewspaper 利用大语言模型实现大规模在线用户去匿名化
02-25 去匿名化 隐私攻击 LLM
[自动] [HACKER_NEWS]
1minnewspaper 利用大语言模型实现大规模在线去匿名化
02-25 LLM 去匿名化 隐私安全
[自动] [HACKER_NEWS]
1minnewspaper 利用大语言模型实现大规模在线用户去匿名化
02-25 去匿名化 隐私攻击 LLM
[自动] [BLOGS_PODCASTS]
2minmic 2026年2月威胁报告:AI模型结合社交平台的恶意利用与防御
02-25 威胁报告 恶意利用 社交平台
[自动] [BLOGS_PODCASTS]
2minmic Anthropic指控DeepSeek等遭超1600万次工业级蒸馏攻击
02-25 Anthropic DeepSeek 模型蒸馏
[自动] [BLOGS_PODCASTS]
2minmic 2026年2月威胁报告:AI模型结合网站与社交平台的恶意利用及防御
02-25 威胁报告 AI安全 恶意利用
[自动] [BLOGS_PODCASTS]
2minmic Anthropic指控DeepSeek等三家中国公司遭超1600万次蒸馏攻击
02-25 Anthropic DeepSeek 模型蒸馏
[自动] [BLOGS_PODCASTS]
2minmic 2026年2月威胁报告:AI模型结合网站与社交平台的恶意利用及防御
02-25 威胁报告 恶意利用 AI安全
[自动] [BLOGS_PODCASTS]
2minmic Anthropic指控DeepSeek等遭超1600万次工业级蒸馏攻击
02-25 Anthropic DeepSeek 模型蒸馏
[自动] [BLOGS_PODCASTS]
3minmic Anthropic指控DeepSeek等三家中国公司遭超1600万次蒸馏攻击
02-25 Anthropic DeepSeek 模型蒸馏
[自动] [HACKER_NEWS]
1minnewspaper Anthropic 撤销旗舰产品安全承诺
02-25 Anthropic Claude 安全承诺
[自动] [HACKER_NEWS]
1minnewspaper Anthropic 放弃旗舰安全承诺,不再遵守 AI 安全准则
02-25 Anthropic AI安全 负责任AI
[自动] [HACKER_NEWS]
1minnewspaper Anthropic 放弃旗舰产品安全承诺
02-25 Anthropic Claude 安全承诺
[自动] [BLOGS_PODCASTS]
3minmic Anthropic指控DeepSeek等三家中国公司超1600万次蒸馏攻击
02-25 Anthropic DeepSeek 模型蒸馏
[自动] [HACKER_NEWS]
1minnewspaper Anthropic 撤销旗舰级安全承诺,不再遵守自愿安全准则
02-25 Anthropic 安全承诺 AI治理
[自动] [ARXIV]
3minschool Skill-Inject:评估智能体技能文件攻击的脆弱性
02-25 LLM智能体 提示注入 Agent安全
[自动] [ARXIV]
4minschool Skill-Inject:评估智能体技能文件攻击漏洞
02-24 LLM Agents Prompt Injection Skill-Inject
[自动] [BLOGS_PODCASTS]
2minmic Anthropic指控DeepSeek等三家中国公司遭超1600万次蒸馏攻击
02-24 Anthropic DeepSeek 模型蒸馏
[自动] [BLOGS_PODCASTS]
2minmic Anthropic指控DeepSeek等遭超1600万次蒸馏攻击
02-24 Anthropic DeepSeek 模型蒸馏
[自动] [BLOGS_PODCASTS]
2minmic Anthropic指控DeepSeek等遭超1600万次工业级蒸馏攻击
02-24 Anthropic DeepSeek 模型蒸馏
[自动] [BLOGS_PODCASTS]
2minmic 研究显示AI聊天机器人向弱势用户提供的信息准确性较低
02-23 AI偏见 公平性 弱势群体
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法根除漏洞并提升大语言模型安全性与性能
02-23 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]
2minmic 研究显示主流AI模型向弱势用户提供的信息准确度较低
02-23 LLM 公平性 偏见
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法根除漏洞并提升大语言模型安全性与性能
02-23 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]
2minmic 研究显示AI聊天机器人向弱势群体提供更不准确信息
02-23 AI偏见 公平性 信息准确性
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法根除漏洞并提升大语言模型安全性与性能
02-23 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法揭示大模型隐藏偏差并提升安全性
02-23 MIT LLM 模型安全
[自动] [ARXIV]
3minschool 细粒度细节定向提升黑盒LVLM攻击能力
02-23 LVLM 黑盒攻击 对抗攻击
[自动] [BLOGS_PODCASTS]
2minmic 麻省理工学院新方法根除漏洞提升大模型安全性与性能
02-22 MIT LLM 模型安全
[自动] [ARXIV]
3minschool 细粒度细节靶向提升黑盒大视觉模型攻击能力
02-22 LVLM 黑盒攻击 对抗样本
[自动] [HACKER_NEWS]
1minnewspaper 在40MB二进制文件植入后门并测试AI与Ghidra检测能力
02-22 二进制安全 后门检测 Ghidra
[自动] [HACKER_NEWS]
1minnewspaper AI与Ghidra协同分析40MB二进制文件中的隐藏后门
02-22 逆向工程 Ghidra 二进制分析
[自动] [HACKER_NEWS]
1minnewspaper 我们在40MB二进制文件植入后门并测试AI与Ghidra的检测能力
02-22 二进制安全 后门检测 Ghidra
[自动] [HACKER_NEWS]
3minnewspaper 人类信任根:面向智能体问责的公共领域框架
02-22 智能体 问责制 信任根
[自动] [HACKER_NEWS]
1minnewspaper 当 AI 智能体搞崩生产环境,责任由谁承担
02-22 AI Agent 生产环境 责任归属
[自动] [ARXIV]
4minschool 通过细粒度细节定位推进黑盒LVLM攻击边界
02-21 LVLM 黑盒攻击 对抗样本
[自动] [BLOGS_PODCASTS]
2minmic 研究显示主流AI模型向弱势用户提供的信息准确性较低
02-21 偏见 幻觉 数字鸿沟
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法根除漏洞并提升LLM安全性与性能
02-21 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]
2minmic 麻省理工学院新方法提升大语言模型安全性与性能
02-21 MIT LLM 可解释性
[自动] [BLOGS_PODCASTS]
2minmic OpenAI 承诺 750 万美元资助独立 AI 对齐研究
02-21 OpenAI AI对齐 AGI安全
[自动] [ARXIV]
3minschool 通过细粒度细节定向提升黑盒LVLM攻击能力
02-20 对抗攻击 LVLM 黑盒攻击
[自动] [BLOGS_PODCASTS]
2minmic 研究:AI聊天机器人向弱势用户提供的信息准确度较低
02-20 偏见 公平性 准确性
[自动] [BLOGS_PODCASTS]
2minmic OpenAI 投入 750 万美元资助独立 AI 对齐研究
02-20 OpenAI AI对齐 AGI安全
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法根除漏洞并提升大语言模型安全性与性能
02-20 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]
2minmic 麻省理工学院新方法根除漏洞并提升大模型安全性与性能
02-20 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]
2minmic OpenAI 投入 750 万美元资助独立 AI 对齐研究
02-20 OpenAI AI对齐 AGI安全
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法根除漏洞并提升大语言模型安全性与性能
02-20 LLM MIT 模型安全
[自动] [BLOGS_PODCASTS]
2minmic OpenAI 投入750万美元资助独立AI对齐研究
02-20 OpenAI AI对齐 AGI安全
[自动] [BLOGS_PODCASTS]
2minmic 麻省理工学院新方法根除漏洞并提升大语言模型安全性
02-20 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]
2minmic MIT研究:主流AI模型向低教育及非美用户提供信息准确性更低
02-20 MIT研究 AI偏见 数字鸿沟
[自动] [BLOGS_PODCASTS]
2minmic 研究:主流AI聊天机器人向弱势用户提供的信息准确度较低
02-20 偏见 公平性 准确性
[自动] [BLOGS_PODCASTS]
2minmic OpenAI 投 750 万美元资助独立 AI 对齐研究
02-20 OpenAI AI对齐 AGI安全
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法根除漏洞并提升大语言模型安全性与性能
02-20 MIT LLM 模型安全
[自动] [BLOGS_PODCASTS]
3minmic Anthropic发布基于METR数据的Agent自主性研究
02-20 Anthropic Agent 自主性
[自动] [HACKER_NEWS]
1minnewspaper 不要轻信盐值:AI摘要、多语言安全与大模型防护
02-20 LLM安全 AI摘要 多语言
[自动] [ARXIV]
4minschool 面向安全智能体系统的策略编译器
02-20 智能体 LLM 策略编译器
[自动] [ARXIV]
2minschool 机器遗忘中保护未删除数据隐私的方法
02-20 机器遗忘 隐私保护 重构攻击
[自动] [HACKER_NEWS]
1minnewspaper 不要盲目信任盐值:AI摘要、多语言安全与大模型护栏
02-20 LLM 安全护栏 AI摘要
[自动] [ARXIV]
4minschool 面向安全智能体系统的策略编译器
02-19 Agentic Systems Policy Compiler LLM Security
[自动] [ARXIV]
3minschool 评估2025年中期LLM辅助对生物学初学者表现的影响
02-19 LLM 生物安全 AI评估
[自动] [ARXIV]
2minschool 机器遗忘中保护未删除数据的隐私防御机制
02-19 机器遗忘 隐私保护 重构攻击
[自动] [BLOGS_PODCASTS]
2minmic OpenAI 投 750 万美元资助独立 AI 对齐研究
02-19 OpenAI AI对齐 AGI安全
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法根除漏洞并提升大语言模型安全性与性能
02-19 MIT LLM 模型安全
[自动] [HACKER_NEWS]
1minnewspaper 不要盲目信任盐值:AI摘要、多语言安全与大模型防护机制
02-19 LLM AI安全 防护机制
[自动] [BLOGS_PODCASTS]
2minmic 理性人无目标论:AI对齐应基于实践协调而非终极目的
02-19 AI对齐 正交性论题 美德伦理
[自动] [HACKER_NEWS]
1minnewspaper 不要盲目信任Salt:AI摘要、多语言安全与LLM护栏
02-19 LLM AI安全 护栏
[自动] [BLOGS_PODCASTS]
2minmic OpenAI出资750万美元资助独立AI对齐研究
02-19 OpenAI AI对齐 AGI安全
[自动] [HACKER_NEWS]
3minnewspaper 警惕AI总结幻觉:多语言安全与大模型护栏机制
02-19 LLM 幻觉 护栏机制
[自动] [HACKER_NEWS]
1minnewspaper 不要轻信盐值:AI摘要、多语言安全与大模型防护机制
02-19 LLM AI安全 提示词注入
[自动] [HACKER_NEWS]
1minnewspaper 警惕AI总结幻觉:多语言安全与大模型防护机制
02-19 LLM 幻觉 安全防护
[自动] [BLOGS_PODCASTS]
3minmic Anthropic发布Agent自主性研究及METR数据
02-19 Anthropic Agent 自主性
[自动] [JUEJIN]
3minsticky_note_2 Rust 编写的 40MB MicroVM 运行时:硬件级隔离与 200ms 冷启
02-19 Rust MicroVM 容器技术
[自动] [JUEJIN]
3minsticky_note_2 Rust 编写的 40MB MicroVM 运行时:硬件级隔离与零信任 AI 沙箱
02-19 Rust MicroVM AI Agent
[自动] [JUEJIN]
2minsticky_note_2 LlamaIndex官方方案:用AgentFS沙盒构建安全AI编码智能体
02-19 LlamaIndex Agent 沙盒
[自动] [BLOGS_PODCASTS]
1minmic 2026年负责任人工智能进展报告
02-19 负责任AI AI安全 伦理
[自动] [BLOGS_PODCASTS]
2minmic 2026年度负责任人工智能进展报告
02-19 负责任AI AI安全 伦理
[自动] [BLOGS_PODCASTS]
2minmic 2026年度负责任人工智能进展报告
02-19 负责任AI Responsible AI AI安全
[自动] [BLOGS_PODCASTS]
2minmic 2026年负责任人工智能进展报告
02-18 负责任AI AI伦理 AI安全
[自动] [BLOGS_PODCASTS]
3minmic ChatGPT 推出锁定模式与高风险标签以防御提示注入
02-18 ChatGPT 提示注入 锁定模式
[自动] [BLOGS_PODCASTS]
2minmic 2026年度负责任人工智能进展报告
02-18 负责任AI ResponsibleAI 年度报告
[自动] [BLOGS_PODCASTS]
2minmic 2026年负责任AI进展报告
02-18 负责任AI AI治理 AI伦理
[自动] [BLOGS_PODCASTS]
4minmic ChatGPT 推出锁定模式与高风险标签以防御提示注入
02-18 ChatGPT OpenAI 提示注入
[自动] [BLOGS_PODCASTS]
3minmic ChatGPT推出锁定模式与高风险标签,防范提示词注入及数据外泄
02-18 ChatGPT 提示词注入 数据安全
[自动] [BLOGS_PODCASTS]
2minmic 2026年负责任AI进展报告
02-18 负责任AI Responsible AI AI伦理
[自动] [BLOGS_PODCASTS]
2minmic ChatGPT推出锁定模式与高风险标签以抵御提示注入
02-18 ChatGPT 提示注入 锁定模式
[自动] [BLOGS_PODCASTS]
2minmic 2026年度负责任人工智能进展报告
02-18 负责任AI AI治理 合规
[自动] [BLOGS_PODCASTS]
2minmic ChatGPT 推出锁定模式与高风险标签防御提示注入
02-18 ChatGPT 企业安全 提示注入
[自动] [BLOGS_PODCASTS]
2minmic 2026年度负责任人工智能进展报告
02-18 负责任AI AI安全 模型治理
[自动] [BLOGS_PODCASTS]
2minmic ChatGPT 推出锁定模式与高风险标签以防御提示词注入
02-17 ChatGPT 提示词注入 锁定模式
[自动] [ARXIV]
3minschool 恶意提示词分类器在真实分布偏移下的评估方法
02-17 LLM安全 提示词注入 越狱攻击
[自动] [BLOGS_PODCASTS]
2minmic ChatGPT 推出锁定模式与高风险标签以防御提示注入
02-17 ChatGPT 提示注入 锁定模式
[自动] [ARXIV]
4minschool 基于扩散模型从面部嵌入重建真实人脸
02-17 扩散模型 人脸重建 KAN
[自动] [ARXIV]
4minschool 基于大语言模型的端到端网络事件自主响应方法
02-17 LLM Agent 网络安全 事件响应
[自动] [ARXIV]
3minschool 基于扩散模型从面部嵌入实现真实人脸重建
02-16 扩散模型 人脸重建 隐私保护
[自动] [ARXIV]
4minschool 基于大语言模型Agent的上下文网络事件自主响应端到端方法
02-16 LLM Agent 网络安全 事件响应
[自动] [BLOGS_PODCASTS]
3minmic ChatGPT推出锁定模式与高风险标签防御提示词注入
02-16 ChatGPT OpenAI 提示词注入
[自动] [HACKER_NEWS]
4minnewspaper LLM 辅助反编译的长尾效应与挑战
02-16 LLM 反编译 逆向工程
[自动] [BLOGS_PODCASTS]
2minmic ChatGPT推出锁定模式与高风险标签以防御提示注入
02-16 ChatGPT 提示注入 锁定模式
[自动] [HACKER_NEWS]
4minnewspaper 播客主持人指控谷歌NotebookLM语音克隆侵权
02-16 NotebookLM 谷歌 语音克隆
[自动] [HACKER_NEWS]
4minnewspaper 电台主播指控谷歌NotebookLM语音克隆功能窃取其声音
02-16 NotebookLM 谷歌 语音克隆
[自动] [HACKER_NEWS]
6minnewspaper 电台主播指控谷歌NotebookLM语音克隆功能未经授权使用其声音
02-16 NotebookLM 语音克隆 Google
[自动] [BLOGS_PODCASTS]
2minmic ChatGPT 推出锁定模式与高风险标签以抵御提示注入
02-15 ChatGPT 提示注入 锁定模式
[自动] [HACKER_NEWS]
4minnewspaper 新闻出版商因担忧AI抓取限制互联网档案馆访问
02-15 互联网档案馆 AI抓取 新闻出版
[自动] [BLOGS_PODCASTS]
2minmic ChatGPT 推出锁定模式与高风险标签防御提示词注入
02-15 ChatGPT 提示词注入 锁定模式
[自动] [HACKER_NEWS]
4minnewspaper 新闻出版商因担忧AI抓取限制互联网档案馆访问权限
02-15 互联网档案馆 AI抓取 数据安全
[自动] [HACKER_NEWS]
4minnewspaper 新闻出版商因担忧AI抓取限制互联网档案馆访问
02-15 互联网档案馆 AI抓取 数据保护
[自动] [HACKER_NEWS]
3minnewspaper 新闻出版商因担忧AI抓取限制互联网档案馆访问权限
02-15 互联网档案馆 AI抓取 版权保护
[自动] [BLOGS_PODCASTS]
2minmic ChatGPT 推出锁定模式与高风险标签,防御提示注入及数据外泄
02-14 ChatGPT 提示注入 数据安全
[自动] [BLOGS_PODCASTS]
3minmic ChatGPT推出锁定模式与高危标签以防范提示词注入及数据外泄
02-14 ChatGPT 提示词注入 数据安全
[自动] [BLOGS_PODCASTS]
3minmic ChatGPT 推出锁定模式与高风险标签防御提示词注入
02-14 ChatGPT 提示词注入 Prompt Injection
[自动] [BLOGS_PODCASTS]
2minmic ChatGPT推出锁定模式与高风险标签防御提示词注入
02-13 ChatGPT OpenAI 提示词注入
[自动] [BLOGS_PODCASTS]
2minmic ChatGPT推出锁定模式与高风险标记以防御提示词注入
02-13 ChatGPT 提示词注入 企业安全
[自动] [HACKER_NEWS]
5minnewspaper 我放弃OpenClaw并构建更安全的AI代理
02-13 AI Agent OpenClaw Mac Mini
[自动] [JUEJIN]
3minsticky_note_2 SSH反向隧道实战:安全暴露本地AI助手至公网
02-13 SSH 反向隧道 内网穿透
[自动] [HACKER_NEWS]
3minnewspaper 评估多语言上下文护栏:人道主义大模型应用
02-13 LLM 护栏 多语言
[自动] [HACKER_NEWS]
3minnewspaper 评估多语言上下文护栏:人道主义LLM用例
02-13 LLM 护栏 多语言
[自动] [ARXIV]
3minschool 能力导向训练引发大模型对齐风险研究
02-13 AI对齐 强化学习 奖励黑客
[自动] [ARXIV]
2minschool 迈向可解释联邦学习:理解差分隐私的影响
02-12 联邦学习 差分隐私 可解释性
[自动] [ARXIV]
3minschool 迈向可解释联邦学习:理解差分隐私的影响
02-11 联邦学习 差分隐私 可解释性
[自动] [ARXIV]
3minschool LLM盲区偏差检测:识别模型未提及内容
02-11 LLM 偏见检测 模型评估
[自动] [BLOGS_PODCASTS]
1minmic 自动推理检查改写聊天机器人的参考实现
02-11 自动推理 聊天机器人 参考实现
[自动] [ARXIV]
1minschool Moltbook 漏洞:自进化 AI 社会中 Anthropic 安全机制失效
02-11 Anthropic AI安全 对齐
[自动] [ARXIV]
4minschool Hybrid Responsible AI-Stochastic Approach for SLA Compl
02-11 6G网络 SLA合规 责任AI
[自动] [BLOGS_PODCASTS]
1minmic Bringing ChatGPT to GenAI.mil
02-11 OpenAI ChatGPT GenAI.mil
[自动] [BLOGS_PODCASTS]
2minmic 自动化推理检查重写聊天机器人的实现架构
02-10 自动化推理 聊天机器人 架构设计
[自动] [HACKER_NEWS]
4minnewspaper Frontier AI agents violate ethical constraints 30–50% o
02-10 AI Agent 对齐 伦理
[自动] [BLOGS_PODCASTS]
3minmic Bringing ChatGPT to GenAI.mil
02-10 OpenAI ChatGPT 政府
[自动] [HACKER_NEWS]
3minnewspaper Frontier AI agents violate ethical constraints 30–50% o
02-10 AI Agents 伦理约束 对齐
[自动] [BLOGS_PODCASTS]
2minmic OpenAI在GenAI.mil部署定制版ChatGPT以服务美国防务团队
02-10 OpenAI ChatGPT GenAI.mil
[自动] [ARXIV]
3minschool 大模型涌现性错位易修复,窄错位难修正
02-10 LLM 对齐 微调
[自动] [BLOGS_PODCASTS]
2minmic OpenAI在GenAI.mil部署定制ChatGPT服务美国国防团队
02-10 OpenAI ChatGPT GenAI.mil
[自动] [ARXIV]
4minschool 语言模型对激活引导攻击的内生抗性研究
02-09 激活引导 内生抗性 ESR
[自动] [HACKER_NEWS]
4minnewspaper 从通讯软件智能体中提取数据的方法
02-09 智能体 数据泄露 通讯软件
[自动] [BLOGS_PODCASTS]
3minmic OpenAI在GenAI.mil部署定制版ChatGPT服务美国国防团队
02-09 OpenAI ChatGPT GenAI.mil
[自动] [HACKER_NEWS]
4minnewspaper Matchlock:基于 Linux 沙箱保护 AI Agent 工作负载
02-08 AI Agent Linux沙箱 Matchlock
[自动] [HACKER_NEWS]
5minnewspaper Matchlock:基于Linux沙箱保护AI代理工作负载安全
02-08 AI Agents Linux沙箱 Matchlock
[自动] [HACKER_NEWS]
6minnewspaper Matchlock:基于 Linux 沙箱保护 AI Agent 工作负载
02-08 AI Agent Linux沙箱 Matchlock
[自动] [HACKER_NEWS]
5minnewspaper Matchlock:基于 Linux 沙箱的 AI 智能体安全隔离方案
02-08 AI Agents Linux 沙箱
[自动] [HACKER_NEWS]
6minnewspaper Matchlock:基于 Linux 的 AI 智能体沙箱技术
02-08 AI 智能体 沙箱技术 Linux
[自动] [HACKER_NEWS]
6minnewspaper Monty:Rust 编写的极简安全 Python 解释器
02-07 Rust Python 解释器
[自动] [HACKER_NEWS]
5minnewspaper Monty:Rust 实现的极简安全 Python 解释器
02-07 Rust Python 解释器
[自动] [HACKER_NEWS]
5minnewspaper Monty:用 Rust 编写的极简安全 Python 解释器
02-07 Rust Python 解释器
[自动] [HACKER_NEWS]
4minnewspaper Monty:Rust 编写的安全极简 Python 解释器
02-07 Rust Python 解释器
[自动] [HACKER_NEWS]
5minnewspaper Monty:Rust 编写的极简安全 Python 解释器,面向 AI 应用
02-07 Rust Python 解释器
[自动] [HACKER_NEWS]
5minnewspaper 让信任变得无关紧要:玩家视角下的智能体安全
02-07 智能体 Agent安全 游戏理论
[自动] [HACKER_NEWS]
9minnewspaper Monty:Rust 编写的极简安全 Python 解释器
02-07 Rust Python 解释器
[自动] [BLOGS_PODCASTS]
3minmic 首个机制可解释性前沿实验室:Goodfire AI 团队专访
02-07 机制可解释性 Goodfire AI AI安全
[自动] [HACKER_NEWS]
4minnewspaper 评估与缓解大模型发现零日漏洞的新兴风险
02-07 LLM 零日漏洞 漏洞挖掘
[自动] [HACKER_NEWS]
4minnewspaper 评估与缓解大模型发现的零日漏洞风险
02-07 LLM 零日漏洞 漏洞挖掘
[自动] [HACKER_NEWS]
7minnewspaper Agent Arena:评估 AI 智能体抗操纵能力的平台
02-06 Agent Arena AI Agent 抗操纵
[自动] [HACKER_NEWS]
7minnewspaper Agent Arena:评估 AI 智能体抗操纵能力的测试平台
02-06 Agent Arena AI 智能体 抗操纵
[自动] [HACKER_NEWS]
5minnewspaper OpenClaw:AI代理获系统完全访问权限的安全隐忧
02-06 AI Agents OpenClaw 系统安全
[自动] [ARXIV]
4minschool 研究揭示推理大模型生成虚假新闻的内在机制
02-06 LLM CoT 虚假新闻
[自动] [HACKER_NEWS]
3minnewspaper 心理越狱揭示前沿模型内部冲突
02-06 越狱 心理测量 前沿模型
[自动] [HACKER_NEWS]
5minnewspaper OpenClaw赋予AI全系统权限引发安全担忧
02-06 AI Agents 系统安全 OpenClaw
[自动] [HACKER_NEWS]
3minnewspaper 心理越狱揭示前沿模型的内部冲突
02-05 越狱 心理测量 前沿模型
[自动] [ARXIV]
3minschool CoT非真理链:推理LLM生成假新闻的实证内部分析
02-05 LLM CoT 假新闻
[自动] [HACKER_NEWS]
3minnewspaper 心理越狱揭示前沿模型内部冲突
02-05 越狱 心理攻击 模型对齐
[自动] [HACKER_NEWS]
3minnewspaper 心理越狱揭示前沿模型内部冲突
02-05 越狱 心理测量 前沿模型
[自动] [HACKER_NEWS]
5minnewspaper Anthropic Claude Opus 4.6开源代码检出500个零日漏洞
02-05 Anthropic Claude Opus 零日漏洞
[自动] [HACKER_NEWS]
3minnewspaper 心理越狱揭示前沿模型内部冲突
02-05 越狱 心理测量 前沿模型
[自动] [HACKER_NEWS]
4minnewspaper Anthropic Claude Opus 4.6 挖掘开源代码500个零日漏洞
02-05 Anthropic Claude Opus 零日漏洞
[自动] [HACKER_NEWS]
6minnewspaper Anthropic Claude Opus 4.6 开源代码惊现 500 个零日漏洞
02-05 Anthropic Claude Opus 零日漏洞
[自动] [BLOGS_PODCASTS]
3minmic Sora动态理念:个性化推荐与安全防护机制
02-05 Sora 个性化推荐 内容安全
[自动] [BLOGS_PODCASTS]
2minmic Sora Feed理念:个性化推荐、安全防护与创意连接
02-05 Sora 个性化推荐 内容安全
[自动] [BLOGS_PODCASTS]
2minmic Sora Feed理念:个性化推荐与安全机制激发创造力
02-04 Sora 个性化推荐 内容安全
[自动] [HACKER_NEWS]
5minnewspaper Ghidra MCP Server发布:集成110款工具实现AI辅助逆向工程
02-04 Ghidra MCP 逆向工程
[自动] [BLOGS_PODCASTS]
2minmic Sora Feed理念:个性化推荐与安全护栏构建
02-04 Sora 个性化推荐 内容安全
[自动] [HACKER_NEWS]
6minnewspaper Ghidra MCP Server发布:集成110种工具实现AI辅助逆向工程
02-04 Ghidra 逆向工程 MCP
[自动] [HACKER_NEWS]
5minnewspaper Ghidra MCP Server:集成110种工具的AI辅助逆向工程
02-04 Ghidra MCP 逆向工程
[自动] [HACKER_NEWS]
5minnewspaper Ghidra MCP Server:集成110款工具的AI逆向工程辅助环境
02-04 Ghidra 逆向工程 MCP
[自动] [HACKER_NEWS]
6minnewspaper Ghidra MCP Server:集成110款工具实现AI辅助逆向工程
02-04 Ghidra 逆向工程 MCP
[自动] [HACKER_NEWS]
5minnewspaper Ghidra MCP Server:集成110项工具的AI逆向工程辅助环境
02-04 Ghidra MCP 逆向工程
[自动] [HACKER_NEWS]
7minnewspaper Ghidra MCP Server:集成110款工具的AI逆向工程辅助服务
02-04 Ghidra MCP 逆向工程
[自动] [HACKER_NEWS]
6minnewspaper Ghidra MCP Server:集成110种工具的AI逆向工程辅助服务
02-04 Ghidra MCP 逆向工程
[自动] [HACKER_NEWS]
5minnewspaper Ghidra MCP Server:集成110款工具的AI逆向工程辅助方案
02-04 Ghidra 逆向工程 MCP
[自动] [HACKER_NEWS]
5minnewspaper Ghidra MCP Server发布:集成110款工具实现AI辅助逆向工程
02-04 Ghidra 逆向工程 MCP
[自动] [BLOGS_PODCASTS]
2minmic Sora信息流理念:个性化推荐与安全护栏机制
02-04 Sora 个性化推荐 内容安全
[自动] [BLOGS_PODCASTS]
2minmic Sora动态理念:个性化推荐与安全防护机制
02-04 Sora 个性化推荐 内容安全
[自动] [HACKER_NEWS]
5minnewspaper 在 Linux 环境中为 AI 代理构建沙箱隔离机制
02-04 AI Agents 沙箱 Linux
[自动] [BLOGS_PODCASTS]
2minmic Sora动态理念:个性化推荐与安全防护机制
02-03 Sora 个性化推荐 内容安全
[自动] [HACKER_NEWS]
7minnewspaper Linux 环境下 AI 代理的安全沙箱机制与实践
02-03 AI Agents Sandbox Linux
[自动] [HACKER_NEWS]
7minnewspaper Linux 环境下 AI Agent 沙箱隔离技术解析
02-03 AI Agent 沙箱隔离 Linux
[自动] [HACKER_NEWS]
5minnewspaper 在 Linux 环境下实现 AI Agent 沙箱隔离
02-03 AI Agent 沙箱隔离 Linux
[自动] [HACKER_NEWS]
4minnewspaper MaliciousCorgi:AI插件将代码发送至中国
02-02 AI 插件 数据泄露 供应链安全
[自动] [HACKER_NEWS]
5minnewspaper MaliciousCorgi:恶意AI扩展将代码发送至中国
02-02 LLM VSCode 恶意软件
[自动] [ARXIV]
3minschool 大语言模型中角色作为潜变量:机制视角下的错位与安全失效
02-02 LLM 对齐 角色扮演
[自动] [ARXIV]
3minschool 动态认知回退机制提升策略合规安全性
02-02 LLM 安全对齐 提示工程
[自动] [ARXIV]
4minschool LLM语义缓存面临密钥碰撞攻击风险
02-02 语义缓存 密钥碰撞 LLM安全
[自动] [ARXIV]
4minschool RedSage:网络安全通用大语言模型
02-02 RedSage 网络安全 垂直领域模型
[自动] [ARXIV]
4minschool RedSage:网络安全通用大语言模型
02-01 RedSage 网络安全 LLM
[自动] [HACKER_NEWS]
3minnewspaper 自动驾驶与无人机易受路牌提示词攻击
02-01 提示词注入 对抗性攻击 自动驾驶
2026年一月 70 篇
类型阅读条目
[自动] [HACKER_NEWS]
6minnewspaper 自动驾驶与无人机易受路牌提示词注入攻击
01-31 提示词注入 自动驾驶 无人机
[自动] [ARXIV]
4minschool RedSage:网络安全通用大语言模型
01-31 RedSage 网络安全 LLM
[自动] [HACKER_NEWS]
4minnewspaper 发现逾17.5万个Ollama AI实例公网暴露
01-31 Ollama 数据泄露 公网暴露
[自动] [HACKER_NEWS]
6minnewspaper Amla Sandbox:面向 AI 智能体的 WASM Bash 沙箱
01-31 Amla Sandbox WASM AI Agents
[自动] [ARXIV]
5minschool RedSage:网络安全通用大模型
01-30 RedSage 网络安全 LLM
[自动] [HACKER_NEWS]
6minnewspaper Amla Sandbox:面向 AI 智能体的 WASM Bash Shell 沙箱
01-30 Amla WASM 沙箱
[自动] [HACKER_NEWS]
4minnewspaper Mamdani 将关停曾建议企业违法的 NYC AI 聊天机器人
01-30 AI 聊天机器人 Mamdani NYC
[自动] [HACKER_NEWS]
6minnewspaper Amla Sandbox:面向 AI 智能体的 WASM Bash Shell 沙箱
01-30 AI Agents WASM Sandbox
[自动] [HACKER_NEWS]
4minnewspaper 纽约市AI聊天bot因建议企业违法而被关停
01-30 AI 聊天机器人 纽约市 合规风险
[自动] [HACKER_NEWS]
6minnewspaper Amla Sandbox:面向 AI 智能体的 WASM Bash Shell 沙箱
01-30 AI Agents WASM 沙箱
[自动] [HACKER_NEWS]
6minnewspaper Amla Sandbox:面向 AI 智能体的 WASM Bash 沙箱
01-30 AI智能体 WASM 沙箱
[自动] [HACKER_NEWS]
5minnewspaper Amla Sandbox:面向 AI 智能体的 WASM Bash 沙箱
01-30 AI Agents WASM 沙箱
[自动] [BLOGS_PODCASTS]
3minmic OpenAI 如何防范 AI 代理点击链接时的数据外泄与提示注入
01-29 OpenAI AI Agent 提示注入
[自动] [BLOGS_PODCASTS]
3minmic OpenAI 如何在 AI 代理点击链接时保护用户数据安全
01-29 OpenAI AI Agent 数据安全
[自动] [BLOGS_PODCASTS]
4minmic OpenAI 如何通过内置安全机制防范 AI 代理点击链接时的数据泄露与提示词注入
01-29 OpenAI AI代理 数据泄露
[自动] [HACKER_NEWS]
5minnewspaper Show HN: 一款用于监控 LLM 工具数据传输的 MitM 代理
01-29 LLM MitM 代理
[自动] [HACKER_NEWS]
5minnewspaper Show HN:可查看LLM工具数据传输的MitM代理
01-29 LLM MitM 代理
[自动] [HACKER_NEWS]
5minnewspaper Show HN: 可视化 LLM 工具数据传输的 MitM 代理
01-29 LLM MitM 代理
[自动] [HACKER_NEWS]
5minnewspaper 展示一款可监控LLM工具数据传输的MitM代理
01-29 LLM MitM 代理
[自动] [HACKER_NEWS]
7minnewspaper Show HN: 一款用于监控 LLM 工具数据传输的 MitM 代理
01-29 LLM MitM 代理
[自动] [HACKER_NEWS]
5minnewspaper 展示 LLM 工具数据传输的中间人代理
01-29 LLM 中间人攻击 代理
[自动] [HACKER_NEWS]
5minnewspaper 安卓桌面界面界面泄露
01-29 Android 隐私泄露 系统UI
[自动] [GITHUB_TRENDING]
11minhub 在边缘/无服务器运行时中运行 V2ray
01-29 V2ray 边缘计算 Cloudflare Workers
[自动] [BLOGS_PODCASTS]
2minmic EMEA青年与福祉资助金:50万欧元支持AI时代青年安全福祉研究
01-29 AI安全 青年福祉 NGO
[自动] [HACKER_NEWS]
4minnewspaper 黑客伪造ADS-B信号在雷达上绘制JD Vance表情包
01-29 ADS-B 信号欺骗 航空安全
[自动] [HACKER_NEWS]
7minnewspaper Show HN:一款用于监控 LLM 工具数据传输的中间人代理
01-29 LLM 中间人代理 网络抓包
[自动] [BLOGS_PODCASTS]
3minmic OpenAI 如何防范 AI 代理点击链接时的数据泄露与提示注入
01-29 OpenAI AI Agent 安全防护
[自动] [BLOGS_PODCASTS]
2minmic EMEA青年与健康资助计划开放申请,50万欧元支持AI时代青年安全研究
01-29 AI安全 青年健康 资助计划
[自动] [HACKER_NEWS]
3minnewspaper 🚨SoundCloud数据泄露!你的账号是否已在HaveIBeenPwned“上榜”?
01-28 数据泄露 SoundCloud HIBP
[自动] [HACKER_NEWS]
2minnewspaper 🚨 盗取9000万美元USDC!嫌犯竟是政府承包商之子?
01-28 加密货币 USDC 洗钱
[自动] [HACKER_NEWS]
3minnewspaper ⚠️OpenSSL曝出12个漏洞!AI黑客如何颠覆安全?🔥
01-28 OpenSSL LLM Fuzzing 漏洞挖掘
[自动] [HACKER_NEWS]
3minnewspaper ⚠️FBI紧急调查!Signal聊天记录竟被追踪?ICE引发隐私大地震!🔓
01-28 FBI ICE Signal
[自动] [HACKER_NEWS]
2minnewspaper TikTok认赔了!避开成瘾性庭审,这一步意味着什么?🤔
01-28 TikTok 算法推荐 成瘾性设计
[自动] [HACKER_NEWS]
3minnewspaper FBI调查明州Signal追踪ICE事件!🕵️‍♂️🚨 隐私警报!
01-28 FBI Signal ICE
[自动] [HACKER_NEWS]
3minnewspaper 🚨SoundCloud数据泄露!你的密码在HaveIBeenPwned上了吗?🔥
01-28 数据泄露 SoundCloud 供应链攻击
[自动] [HACKER_NEWS]
2minnewspaper 🚨$9000万美政府加密币被盗!竟是承包商儿子干的?😱
01-28 加密货币 网络安全 Web3
[自动] [ARXIV]
4minschool 💥MortalMATH:当推理目标遇上紧急场景,AI会“翻车”吗?
01-28 LLM 推理模型 MortalMATH
[自动] [ARXIV]
4minschool MortalMATH:当推理目标遇上紧急语境,冲突何解?🧠🔥
01-27 LLM 模型评估 安全对齐
[自动] [HACKER_NEWS]
3minnewspaper FBI严查!ICE追踪Signal聊天被爆!🚨
01-27 FBI ICE Signal
[自动] [HACKER_NEWS]
3minnewspaper 🚨SoundCloud数据泄露!你的密码是否已遭泄露?快查!🔥
01-27 数据泄露 SoundCloud HIBP
[自动] [HACKER_NEWS]
4minnewspaper 🚨OpenSSL严重漏洞!CMS解析栈溢出,立即修复!
01-27 OpenSSL CMS 栈溢出
[自动] [HACKER_NEWS]
3minnewspaper 🚨SoundCloud数据泄露!HaveIBeenPwned紧急更新!
01-27 数据泄露 SoundCloud HaveIBeenPwned
[自动] [HACKER_NEWS]
3minnewspaper 🔥欧洲首创!网站审计神器捍卫数据主权🇪🇺
01-27 数据主权 GDPR 合规审计
[自动] [HACKER_NEWS]
3minnewspaper 🔥OpenSSL高危漏洞!CMS解析栈溢出,速防!
01-27 OpenSSL 高危漏洞 栈溢出
[自动] [HACKER_NEWS]
3minnewspaper ⚠️揭秘“拉高出货”软件时代!骗局还是暴利?💰
01-27 金融欺诈 拉高出货 交易机器人
[自动] [HACKER_NEWS]
3minnewspaper 警惕!💀 软件拉高出货时代来临!韭菜收割机全揭秘!
01-27 金融欺诈 拉高出货 AI安全
[自动] [HACKER_NEWS]
3minnewspaper 拒绝“退出”表单!2025新规:用户数据将何去何从?🚨🔒
01-27 隐私政策 数据合规 GDPR
[自动] [HACKER_NEWS]
2minnewspaper TikTok反ICE视频被屏蔽!技术故障还是审查争议?🚨📱
01-27 TikTok 内容审核 审查制度
[自动] [HACKER_NEWS]
4minnewspaper 🚀网站合规必备!首个欧盟主权审计工具,你的网站合规了吗?
01-27 数字主权 GDPR 合规审计
[自动] [HACKER_NEWS]
3minnewspaper 🇫🇷法国重磅出手!打造自主平台取代Zoom/Teams!🚀
01-27 数字主权 视频会议 Jitsi
[自动] [HACKER_NEWS]
4minnewspaper 法国硬核力作!🔥正对标Zoom、Teams,能否颠覆巨头格局?🚀
01-27 数据主权 Tchap 法国
[自动] [ARXIV]
4minschool 🔥IoT攻击数据生成新突破!Latent Diffusion助力入侵检测🚀
01-27 IoT 入侵检测 潜在扩散模型
[自动] [HACKER_NEWS]
3minnewspaper ⚠️Windows 11补丁日噩梦升级!关键漏洞曝光!
01-27 Windows 11 补丁管理 系统更新
[自动] [HACKER_NEWS]
6minnewspaper 🤯Windows 11到底怎么了?最新现状全解析!🔥
01-27 Windows 11 系统现状 TPM 2.0
[自动] [HACKER_NEWS]
2minnewspaper 🔥JuiceSSH激怒用户:强制下架Pro功能!你的权限还在吗?
01-26 JuiceSSH 订阅制 买断制
[自动] [ARXIV]
3minschool 🔥IoT攻击数据生成神器!Latent Diffusion让入侵检测更准!
01-26 LDM 潜在扩散模型 物联网
[自动] [HACKER_NEWS]
3minnewspaper 🇫🇷 法国向科技巨头宣战!自研视频会议App能否终结美企垄断?
01-26 数字主权 数据隐私 Tchap
[自动] [HACKER_NEWS]
3minnewspaper 🔥浏览器即沙盒!安全新范式:Web应用如何筑牢第一道防线?
01-26 浏览器安全 沙箱机制 Web安全
[自动] [HACKER_NEWS]
3minnewspaper ⚠️台积电风险预警!全球芯片供应链面临生死考验?
01-26 台积电 芯片 供应链
[自动] [HACKER_NEWS]
3minnewspaper 🔥浏览器即沙盒!颠覆你对安全边界的认知🚀
01-26 浏览器安全 沙盒机制 Web安全
[自动] [HACKER_NEWS]
3minnewspaper 浏览器即沙盒!🔒 Web安全的终极防线!🚀
01-26 浏览器安全 沙盒机制 同源策略
[自动] [HACKER_NEWS]
2minnewspaper 伊朗永久断网?仅特权阶层可连网!🚫🌐
01-26 网络审查 断网 互联网治理
[自动] [HACKER_NEWS]
2minnewspaper 🚨西班牙高铁惊魂!断裂轨道酿灾难,报告揭露致命隐患!
01-26 高铁事故 基础设施 轨道断裂
[自动] [GITHUB_TRENDING]
11minhub 🚀shadow1ng/fscan:内网渗透神器!一键扫描,漏洞无处遁形!🔥
01-26 内网扫描 渗透测试 Go
[自动] [ARXIV]
4minschool 🛡️多模态大模型鲁棒性突破!特征空间平滑实现可证防御!
01-25 多模态大模型 鲁棒性 对抗攻击
[自动] [HACKER_NEWS]
2minnewspaper 德国电信涉嫌违反网络中立性!🚨互联网公平岌岌可危?
01-25 网络中立性 ISP 德国电信
[自动] [HACKER_NEWS]
3minnewspaper Android 侧载要变难了!Google 确认强制启用「高阻力」模式 🚫📱
01-25 Android Google 侧载
[自动] [HACKER_NEWS]
3minnewspaper 🔥疑点重重!我们X光透视了这根可疑FTDI线缆,结果震惊了!
01-25 硬件安全 BadUSB 供应链安全
[自动] [GITHUB_TRENDING]
11minhub 🔥fscan:内网扫描神器!shadow1ng出品,安全必备⚡️
01-25 内网扫描 漏洞检测 Go语言
[自动] [HACKER_NEWS]
4minnewspaper ⚠️NVIDIA显卡惊现“66天”神秘Bug!系统无限卡死?🔧
01-25 NVIDIA GPU Bug