目录
对齐
条目:33
2026年三月
3 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 2min | mic
METR Joel Becker谈指数级时间视野评估与AI生产力极限 03-01
AI评估
METR
时间视野 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic模型蒸馏与SWE-Bench失效机制分析 03-01
Anthropic
模型蒸馏
SWE-Bench |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic模型蒸馏与SWE-Bench失效机制分析 03-01
Anthropic
模型蒸馏
SWE-Bench |
2026年二月
28 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic模型蒸馏与SWE-Bench失效机制分析 02-28
模型蒸馏
SWE-Bench
Anthropic |
[自动]
[ARXIV] | 2min | school
缓解可读性代价:基于解耦证明者-验证者博弈的方法 02-27
LLM
可解释性
模型评估 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Anthropic 模型蒸馏与 SWE-Bench 作弊机制分析 02-27
模型蒸馏
SWE-bench
奖励黑客 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Anthropic 放弃其核心安全承诺 02-26
Anthropic
AI安全
对齐 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Anthropic 放弃其核心安全承诺 02-26
Anthropic
AI安全
对齐 |
[自动]
[HACKER_NEWS] | 4min | newspaper
不要盲目信任Salt:AI摘要、多语言安全与LLM护栏 02-19
LLM
AI安全
护栏 |
[自动]
[HACKER_NEWS] | 3min | newspaper
尼克·博斯特罗姆新论文探讨超级智能的启动时机 02-13
超级智能
尼克·博斯特罗姆
AI安全 |
[自动]
[ARXIV] | 1min | school
Moltbook 漏洞:自进化 AI 社会中 Anthropic 安全机制失效 02-11
Anthropic
AI安全
对齐 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Frontier AI agents violate ethical constraints 30–50% o 02-10
AI Agent
对齐
伦理 |
[自动]
[HACKER_NEWS] | 3min | newspaper
Frontier AI agents violate ethical constraints 30–50% o 02-10
AI Agents
伦理约束
对齐 |
[自动]
[ARXIV] | 3min | school
大模型涌现性错位易修复,窄错位难修正 02-10
LLM
对齐
微调 |
[自动]
[HACKER_NEWS] | 4min | newspaper
基于人类反馈的强化学习:原理与应用 02-07
RLHF
强化学习
人类反馈 |
[自动]
[HACKER_NEWS] | 5min | newspaper
基于人类反馈的强化学习原理与应用 02-07
RLHF
强化学习
人类反馈 |
[自动]
[HACKER_NEWS] | 5min | newspaper
基于人类反馈的强化学习:原理与应用 02-07
RLHF
强化学习
人类反馈 |
[自动]
[HACKER_NEWS] | 7min | newspaper
基于人类反馈的强化学习机制解析 02-07
RLHF
强化学习
人类反馈 |
[自动]
[HACKER_NEWS] | 5min | newspaper
让信任变得无关紧要:玩家视角下的智能体安全 02-07
智能体
Agent安全
游戏理论 |
[自动]
[ARXIV] | 4min | school
重新思考大模型强化学习中的信任区域机制 02-06
强化学习
LLM
PPO |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型内部冲突 02-06
越狱
心理测量
前沿模型 |
[自动]
[ARXIV] | 5min | school
重新思考大模型强化学习中的信任区域 02-05
RLHF
PPO
强化学习 |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型的内部冲突 02-05
越狱
心理测量
前沿模型 |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型内部冲突 02-05
越狱
心理测量
前沿模型 |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型内部冲突 02-05
越狱
心理测量
前沿模型 |
[自动]
[ARXIV] | 4min | school
面向冲突目标的免奖励对齐方法 02-04
RACO
对齐
多目标优化 |
[自动]
[HACKER_NEWS] | 4min | newspaper
模型智能与任务复杂度如何影响对齐偏差 02-03
对齐
模型智能
任务复杂度 |
[自动]
[HACKER_NEWS] | 3min | newspaper
训练万亿参数模型使其具备幽默感 02-03
LLM
幽默感
万亿参数 |
[自动]
[ARXIV] | 3min | school
大语言模型稀疏奖励子系统 02-03
LLM
稀疏奖励
价值神经元 |
[自动]
[ARXIV] | 3min | school
大语言模型中角色作为潜变量:机制视角下的错位与安全失效 02-02
LLM
对齐
角色扮演 |
[自动]
[ARXIV] | 4min | school
CATTO:平衡语言模型偏好与置信度的方法 02-02
LLM
CATTO
校准 |
2026年一月
2 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 5min | school
🚀ctELM:用ELM解码临床试验嵌入!精准操控💡 01-28
ctELM
临床试验
嵌入空间 |
[自动]
[ARXIV] | 4min | school
💥MortalMATH:当推理目标遇上紧急场景,AI会“翻车”吗? 01-28
LLM
推理模型
MortalMATH |
无匹配条目