对齐

条目：33

2026年三月 3 篇

类型	阅读	条目
[自动] [BLOGS_PODCASTS]	2min	mic METR Joel Becker谈指数级时间视野评估与AI生产力极限 03-01 AI评估 METR 时间视野
[自动] [BLOGS_PODCASTS]	3min	mic Anthropic模型蒸馏与SWE-Bench失效机制分析 03-01 Anthropic 模型蒸馏 SWE-Bench
[自动] [BLOGS_PODCASTS]	3min	mic Anthropic模型蒸馏与SWE-Bench失效机制分析 03-01 Anthropic 模型蒸馏 SWE-Bench

2026年二月 28 篇

类型	阅读	条目
[自动] [BLOGS_PODCASTS]	3min	mic Anthropic模型蒸馏与SWE-Bench失效机制分析 02-28 模型蒸馏 SWE-Bench Anthropic
[自动] [ARXIV]	2min	school 缓解可读性代价：基于解耦证明者-验证者博弈的方法 02-27 LLM 可解释性模型评估
[自动] [BLOGS_PODCASTS]	2min	mic Anthropic 模型蒸馏与 SWE-Bench 作弊机制分析 02-27 模型蒸馏 SWE-bench 奖励黑客
[自动] [HACKER_NEWS]	4min	newspaper Anthropic 放弃其核心安全承诺 02-26 Anthropic AI安全对齐
[自动] [HACKER_NEWS]	4min	newspaper Anthropic 放弃其核心安全承诺 02-26 Anthropic AI安全对齐
[自动] [HACKER_NEWS]	4min	newspaper 不要盲目信任Salt：AI摘要、多语言安全与LLM护栏 02-19 LLM AI安全护栏
[自动] [HACKER_NEWS]	3min	newspaper 尼克·博斯特罗姆新论文探讨超级智能的启动时机 02-13 超级智能尼克·博斯特罗姆 AI安全
[自动] [ARXIV]	1min	school Moltbook 漏洞：自进化 AI 社会中 Anthropic 安全机制失效 02-11 Anthropic AI安全对齐
[自动] [HACKER_NEWS]	4min	newspaper Frontier AI agents violate ethical constraints 30–50% o 02-10 AI Agent 对齐伦理
[自动] [HACKER_NEWS]	3min	newspaper Frontier AI agents violate ethical constraints 30–50% o 02-10 AI Agents 伦理约束对齐
[自动] [ARXIV]	3min	school 大模型涌现性错位易修复，窄错位难修正 02-10 LLM 对齐微调
[自动] [HACKER_NEWS]	4min	newspaper 基于人类反馈的强化学习：原理与应用 02-07 RLHF 强化学习人类反馈
[自动] [HACKER_NEWS]	5min	newspaper 基于人类反馈的强化学习原理与应用 02-07 RLHF 强化学习人类反馈
[自动] [HACKER_NEWS]	5min	newspaper 基于人类反馈的强化学习：原理与应用 02-07 RLHF 强化学习人类反馈
[自动] [HACKER_NEWS]	7min	newspaper 基于人类反馈的强化学习机制解析 02-07 RLHF 强化学习人类反馈
[自动] [HACKER_NEWS]	5min	newspaper 让信任变得无关紧要：玩家视角下的智能体安全 02-07 智能体 Agent安全游戏理论
[自动] [ARXIV]	4min	school 重新思考大模型强化学习中的信任区域机制 02-06 强化学习 LLM PPO
[自动] [HACKER_NEWS]	3min	newspaper 心理越狱揭示前沿模型内部冲突 02-06 越狱心理测量前沿模型
[自动] [ARXIV]	5min	school 重新思考大模型强化学习中的信任区域 02-05 RLHF PPO 强化学习
[自动] [HACKER_NEWS]	3min	newspaper 心理越狱揭示前沿模型的内部冲突 02-05 越狱心理测量前沿模型
[自动] [HACKER_NEWS]	3min	newspaper 心理越狱揭示前沿模型内部冲突 02-05 越狱心理测量前沿模型
[自动] [HACKER_NEWS]	3min	newspaper 心理越狱揭示前沿模型内部冲突 02-05 越狱心理测量前沿模型
[自动] [ARXIV]	4min	school 面向冲突目标的免奖励对齐方法 02-04 RACO 对齐多目标优化
[自动] [HACKER_NEWS]	4min	newspaper 模型智能与任务复杂度如何影响对齐偏差 02-03 对齐模型智能任务复杂度
[自动] [HACKER_NEWS]	3min	newspaper 训练万亿参数模型使其具备幽默感 02-03 LLM 幽默感万亿参数
[自动] [ARXIV]	3min	school 大语言模型稀疏奖励子系统 02-03 LLM 稀疏奖励价值神经元
[自动] [ARXIV]	3min	school 大语言模型中角色作为潜变量：机制视角下的错位与安全失效 02-02 LLM 对齐角色扮演
[自动] [ARXIV]	4min	school CATTO：平衡语言模型偏好与置信度的方法 02-02 LLM CATTO 校准

2026年一月 2 篇

类型	阅读	条目
[自动] [ARXIV]	5min	school 🚀ctELM：用ELM解码临床试验嵌入！精准操控💡 01-28 ctELM 临床试验嵌入空间
[自动] [ARXIV]	4min	school 💥MortalMATH：当推理目标遇上紧急场景，AI会“翻车”吗？ 01-28 LLM 推理模型 MortalMATH