terminal

AI Stack

rss_feed
SYS_STABLE
目录

对齐

条目:56
2026年四月 1 篇
类型阅读条目
[自动] [ARXIV]
1minschool 大语言模型生成有害内容的统一机制
04-13 大语言模型 有害内容 权重剪枝
2026年三月 25 篇
类型阅读条目
[自动] [ARXIV]
3minschool 大语言模型道德冷漠现象的机制起源研究
03-17 对齐 AI安全 道德推理
[自动] [ARXIV]
3minschool LLM宪法多智能体治理框架
03-17 多智能体 LLM治理 对齐
[自动] [ARXIV]
3minschool LLM 宪政多智能体治理框架
03-16 LLM 多智能体 AI治理
[自动] [HACKER_NEWS]
1minnewspaper 基于PPO的树搜索蒸馏优化语言模型
03-15 PPO 强化学习 模型蒸馏
[自动] [HACKER_NEWS]
1minnewspaper 基于PPO的树搜索蒸馏技术优化语言模型
03-15 PPO 树搜索 模型蒸馏
[自动] [HACKER_NEWS]
1minnewspaper 基于PPO的树搜索蒸馏优化语言模型
03-15 PPO 强化学习 树搜索
[自动] [HACKER_NEWS]
1minnewspaper 基于PPO的树搜索蒸馏技术优化语言模型
03-15 PPO 强化学习 树搜索
[自动] [ARXIV]
3minschool 探究推理LLM作为非可验证后训练评估器的有效性
03-13 LLM-as-Judge RLHF 强化学习
[自动] [ARXIV]
2minschool 推理机制如何提升大模型的诚实度
03-11 LLM 推理机制 诚实度
[自动] [BLOGS_PODCASTS]
2minmic IH-Challenge提升前沿大模型指令层级与安全性
03-11 IH-Challenge 指令层级 提示注入
[自动] [BLOGS_PODCASTS]
2minmic IH-Challenge提升前沿大模型指令层级与安全防御能力
03-11 LLM 指令层级 安全防御
[自动] [BLOGS_PODCASTS]
2minmic IH-Challenge提升前沿大模型指令层级与抗攻击能力
03-10 LLM 指令层级 IH-Challenge
[自动] [ARXIV]
2minschool 审查大模型作为秘密知识提取的自然测试床
03-08 审查 知识提取 越狱
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.4思维系统技术报告发布
03-07 GPT-5.4 OpenAI 思维链
[自动] [BLOGS_PODCASTS]
2minmic OpenAI研究:推理模型难以控制思维链,强化可监控性安全价值
03-07 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]
2minmic OpenAI推出CoT-Control:强化推理模型思维链监控
03-06 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.4思维系统卡:推理机制与安全策略详解
03-06 GPT-5.4 思维链 推理机制
[自动] [HACKER_NEWS]
1minnewspaper 移除开源大模型审查机制的工具
03-06 审查机制 对齐 模型微调
[自动] [BLOGS_PODCASTS]
2minmic OpenAI研究:推理模型思维链难以控制凸显可监控性重要性
03-06 OpenAI CoT 思维链
[自动] [ARXIV]
3minschool 基于内部激活监测生成过程中的突发奖励黑客行为
03-05 Reward Hacking 内部激活 Sparse Autoencoders
[自动] [ARXIV]
2minschool 研究揭示上下文压力导致智能体目标漂移
03-05 智能体 目标漂移 上下文压力
[自动] [BLOGS_PODCASTS]
2minmic GPT-5.3 Instant 系统卡发布:性能与安全机制详解
03-04 GPT-5.3 OpenAI 系统卡
[自动] [ARXIV]
3minschool 无智慧的知识:评估大模型与预期影响的错位
03-03 LLM 对齐 OOD
[自动] [BLOGS_PODCASTS]
3minmic METR Joel Becker谈指数级时间视界评估与威胁模型
03-02 METR 模型评估 威胁模型
[自动] [BLOGS_PODCASTS]
3minmic Anthropic模型蒸馏与SWE-Bench失效机制分析
03-01 Anthropic 模型蒸馏 SWE-Bench
2026年二月 28 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
3minmic Anthropic模型蒸馏与SWE-Bench失效机制分析
02-28 模型蒸馏 SWE-Bench Anthropic
[自动] [ARXIV]
2minschool 缓解可读性代价:基于解耦证明者-验证者博弈的方法
02-27 LLM 可解释性 模型评估
[自动] [BLOGS_PODCASTS]
2minmic Anthropic 模型蒸馏与 SWE-Bench 作弊机制分析
02-27 模型蒸馏 SWE-bench 奖励黑客
[自动] [HACKER_NEWS]
1minnewspaper Anthropic 放弃其核心安全承诺
02-26 Anthropic AI安全 对齐
[自动] [HACKER_NEWS]
3minnewspaper Anthropic 放弃其核心安全承诺
02-26 Anthropic AI安全 对齐
[自动] [HACKER_NEWS]
1minnewspaper 不要盲目信任Salt:AI摘要、多语言安全与LLM护栏
02-19 LLM AI安全 护栏
[自动] [HACKER_NEWS]
3minnewspaper 尼克·博斯特罗姆新论文探讨超级智能的启动时机
02-13 超级智能 尼克·博斯特罗姆 AI安全
[自动] [ARXIV]
1minschool Moltbook 漏洞:自进化 AI 社会中 Anthropic 安全机制失效
02-11 Anthropic AI安全 对齐
[自动] [HACKER_NEWS]
4minnewspaper Frontier AI agents violate ethical constraints 30–50% o
02-10 AI Agent 对齐 伦理
[自动] [HACKER_NEWS]
3minnewspaper Frontier AI agents violate ethical constraints 30–50% o
02-10 AI Agents 伦理约束 对齐
[自动] [ARXIV]
3minschool 大模型涌现性错位易修复,窄错位难修正
02-10 LLM 对齐 微调
[自动] [HACKER_NEWS]
4minnewspaper 基于人类反馈的强化学习:原理与应用
02-07 RLHF 强化学习 人类反馈
[自动] [HACKER_NEWS]
4minnewspaper 基于人类反馈的强化学习原理与应用
02-07 RLHF 强化学习 人类反馈
[自动] [HACKER_NEWS]
5minnewspaper 基于人类反馈的强化学习:原理与应用
02-07 RLHF 强化学习 人类反馈
[自动] [HACKER_NEWS]
7minnewspaper 基于人类反馈的强化学习机制解析
02-07 RLHF 强化学习 人类反馈
[自动] [HACKER_NEWS]
5minnewspaper 让信任变得无关紧要:玩家视角下的智能体安全
02-07 智能体 Agent安全 游戏理论
[自动] [ARXIV]
4minschool 重新思考大模型强化学习中的信任区域机制
02-06 强化学习 LLM PPO
[自动] [HACKER_NEWS]
3minnewspaper 心理越狱揭示前沿模型内部冲突
02-06 越狱 心理测量 前沿模型
[自动] [ARXIV]
5minschool 重新思考大模型强化学习中的信任区域
02-05 RLHF PPO 强化学习
[自动] [HACKER_NEWS]
3minnewspaper 心理越狱揭示前沿模型的内部冲突
02-05 越狱 心理测量 前沿模型
[自动] [HACKER_NEWS]
3minnewspaper 心理越狱揭示前沿模型内部冲突
02-05 越狱 心理测量 前沿模型
[自动] [HACKER_NEWS]
3minnewspaper 心理越狱揭示前沿模型内部冲突
02-05 越狱 心理测量 前沿模型
[自动] [ARXIV]
4minschool 面向冲突目标的免奖励对齐方法
02-04 RACO 对齐 多目标优化
[自动] [HACKER_NEWS]
4minnewspaper 模型智能与任务复杂度如何影响对齐偏差
02-03 对齐 模型智能 任务复杂度
[自动] [HACKER_NEWS]
3minnewspaper 训练万亿参数模型使其具备幽默感
02-03 LLM 幽默感 万亿参数
[自动] [ARXIV]
3minschool 大语言模型稀疏奖励子系统
02-03 LLM 稀疏奖励 价值神经元
[自动] [ARXIV]
3minschool 大语言模型中角色作为潜变量:机制视角下的错位与安全失效
02-02 LLM 对齐 角色扮演
[自动] [ARXIV]
4minschool CATTO:平衡语言模型偏好与置信度的方法
02-02 LLM CATTO 校准
2026年一月 2 篇
类型阅读条目
[自动] [ARXIV]
4minschool 🚀ctELM:用ELM解码临床试验嵌入!精准操控💡
01-28 ctELM 临床试验 嵌入空间
[自动] [ARXIV]
4minschool 💥MortalMATH:当推理目标遇上紧急场景,AI会“翻车”吗?
01-28 LLM 推理模型 MortalMATH