terminal

AI Stack

rss_feed
SYS_STABLE
目录

对齐

条目:33
2026年三月 3 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
2minmic METR Joel Becker谈指数级时间视野评估与AI生产力极限
03-01 AI评估 METR 时间视野
[自动] [BLOGS_PODCASTS]
3minmic Anthropic模型蒸馏与SWE-Bench失效机制分析
03-01 Anthropic 模型蒸馏 SWE-Bench
[自动] [BLOGS_PODCASTS]
3minmic Anthropic模型蒸馏与SWE-Bench失效机制分析
03-01 Anthropic 模型蒸馏 SWE-Bench
2026年二月 28 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
3minmic Anthropic模型蒸馏与SWE-Bench失效机制分析
02-28 模型蒸馏 SWE-Bench Anthropic
[自动] [ARXIV]
2minschool 缓解可读性代价:基于解耦证明者-验证者博弈的方法
02-27 LLM 可解释性 模型评估
[自动] [BLOGS_PODCASTS]
2minmic Anthropic 模型蒸馏与 SWE-Bench 作弊机制分析
02-27 模型蒸馏 SWE-bench 奖励黑客
[自动] [HACKER_NEWS]
4minnewspaper Anthropic 放弃其核心安全承诺
02-26 Anthropic AI安全 对齐
[自动] [HACKER_NEWS]
4minnewspaper Anthropic 放弃其核心安全承诺
02-26 Anthropic AI安全 对齐
[自动] [HACKER_NEWS]
4minnewspaper 不要盲目信任Salt:AI摘要、多语言安全与LLM护栏
02-19 LLM AI安全 护栏
[自动] [HACKER_NEWS]
3minnewspaper 尼克·博斯特罗姆新论文探讨超级智能的启动时机
02-13 超级智能 尼克·博斯特罗姆 AI安全
[自动] [ARXIV]
1minschool Moltbook 漏洞:自进化 AI 社会中 Anthropic 安全机制失效
02-11 Anthropic AI安全 对齐
[自动] [HACKER_NEWS]
4minnewspaper Frontier AI agents violate ethical constraints 30–50% o
02-10 AI Agent 对齐 伦理
[自动] [HACKER_NEWS]
3minnewspaper Frontier AI agents violate ethical constraints 30–50% o
02-10 AI Agents 伦理约束 对齐
[自动] [ARXIV]
3minschool 大模型涌现性错位易修复,窄错位难修正
02-10 LLM 对齐 微调
[自动] [HACKER_NEWS]
4minnewspaper 基于人类反馈的强化学习:原理与应用
02-07 RLHF 强化学习 人类反馈
[自动] [HACKER_NEWS]
5minnewspaper 基于人类反馈的强化学习原理与应用
02-07 RLHF 强化学习 人类反馈
[自动] [HACKER_NEWS]
5minnewspaper 基于人类反馈的强化学习:原理与应用
02-07 RLHF 强化学习 人类反馈
[自动] [HACKER_NEWS]
7minnewspaper 基于人类反馈的强化学习机制解析
02-07 RLHF 强化学习 人类反馈
[自动] [HACKER_NEWS]
5minnewspaper 让信任变得无关紧要:玩家视角下的智能体安全
02-07 智能体 Agent安全 游戏理论
[自动] [ARXIV]
4minschool 重新思考大模型强化学习中的信任区域机制
02-06 强化学习 LLM PPO
[自动] [HACKER_NEWS]
3minnewspaper 心理越狱揭示前沿模型内部冲突
02-06 越狱 心理测量 前沿模型
[自动] [ARXIV]
5minschool 重新思考大模型强化学习中的信任区域
02-05 RLHF PPO 强化学习
[自动] [HACKER_NEWS]
3minnewspaper 心理越狱揭示前沿模型的内部冲突
02-05 越狱 心理测量 前沿模型
[自动] [HACKER_NEWS]
3minnewspaper 心理越狱揭示前沿模型内部冲突
02-05 越狱 心理测量 前沿模型
[自动] [HACKER_NEWS]
3minnewspaper 心理越狱揭示前沿模型内部冲突
02-05 越狱 心理测量 前沿模型
[自动] [ARXIV]
4minschool 面向冲突目标的免奖励对齐方法
02-04 RACO 对齐 多目标优化
[自动] [HACKER_NEWS]
4minnewspaper 模型智能与任务复杂度如何影响对齐偏差
02-03 对齐 模型智能 任务复杂度
[自动] [HACKER_NEWS]
3minnewspaper 训练万亿参数模型使其具备幽默感
02-03 LLM 幽默感 万亿参数
[自动] [ARXIV]
3minschool 大语言模型稀疏奖励子系统
02-03 LLM 稀疏奖励 价值神经元
[自动] [ARXIV]
3minschool 大语言模型中角色作为潜变量:机制视角下的错位与安全失效
02-02 LLM 对齐 角色扮演
[自动] [ARXIV]
4minschool CATTO:平衡语言模型偏好与置信度的方法
02-02 LLM CATTO 校准
2026年一月 2 篇
类型阅读条目
[自动] [ARXIV]
5minschool 🚀ctELM:用ELM解码临床试验嵌入!精准操控💡
01-28 ctELM 临床试验 嵌入空间
[自动] [ARXIV]
4minschool 💥MortalMATH:当推理目标遇上紧急场景,AI会“翻车”吗?
01-28 LLM 推理模型 MortalMATH