目录
对齐
条目:56
2026年四月
1 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 1min | school
大语言模型生成有害内容的统一机制 04-13
大语言模型
有害内容
权重剪枝 |
2026年三月
25 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 3min | school
大语言模型道德冷漠现象的机制起源研究 03-17
对齐
AI安全
道德推理 |
[自动]
[ARXIV] | 3min | school
LLM宪法多智能体治理框架 03-17
多智能体
LLM治理
对齐 |
[自动]
[ARXIV] | 3min | school
LLM 宪政多智能体治理框架 03-16
LLM
多智能体
AI治理 |
[自动]
[HACKER_NEWS] | 1min | newspaper
基于PPO的树搜索蒸馏优化语言模型 03-15
PPO
强化学习
模型蒸馏 |
[自动]
[HACKER_NEWS] | 1min | newspaper
基于PPO的树搜索蒸馏技术优化语言模型 03-15
PPO
树搜索
模型蒸馏 |
[自动]
[HACKER_NEWS] | 1min | newspaper
基于PPO的树搜索蒸馏优化语言模型 03-15
PPO
强化学习
树搜索 |
[自动]
[HACKER_NEWS] | 1min | newspaper
基于PPO的树搜索蒸馏技术优化语言模型 03-15
PPO
强化学习
树搜索 |
[自动]
[ARXIV] | 3min | school
探究推理LLM作为非可验证后训练评估器的有效性 03-13
LLM-as-Judge
RLHF
强化学习 |
[自动]
[ARXIV] | 2min | school
推理机制如何提升大模型的诚实度 03-11
LLM
推理机制
诚实度 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
IH-Challenge提升前沿大模型指令层级与安全性 03-11
IH-Challenge
指令层级
提示注入 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
IH-Challenge提升前沿大模型指令层级与安全防御能力 03-11
LLM
指令层级
安全防御 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
IH-Challenge提升前沿大模型指令层级与抗攻击能力 03-10
LLM
指令层级
IH-Challenge |
[自动]
[ARXIV] | 2min | school
审查大模型作为秘密知识提取的自然测试床 03-08
审查
知识提取
越狱 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-5.4思维系统技术报告发布 03-07
GPT-5.4
OpenAI
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI研究:推理模型难以控制思维链,强化可监控性安全价值 03-07
OpenAI
CoT
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI推出CoT-Control:强化推理模型思维链监控 03-06
OpenAI
CoT
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-5.4思维系统卡:推理机制与安全策略详解 03-06
GPT-5.4
思维链
推理机制 |
[自动]
[HACKER_NEWS] | 1min | newspaper
移除开源大模型审查机制的工具 03-06
审查机制
对齐
模型微调 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI研究:推理模型思维链难以控制凸显可监控性重要性 03-06
OpenAI
CoT
思维链 |
[自动]
[ARXIV] | 3min | school
基于内部激活监测生成过程中的突发奖励黑客行为 03-05
Reward Hacking
内部激活
Sparse Autoencoders |
[自动]
[ARXIV] | 2min | school
研究揭示上下文压力导致智能体目标漂移 03-05
智能体
目标漂移
上下文压力 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-5.3 Instant 系统卡发布:性能与安全机制详解 03-04
GPT-5.3
OpenAI
系统卡 |
[自动]
[ARXIV] | 3min | school
无智慧的知识:评估大模型与预期影响的错位 03-03
LLM
对齐
OOD |
[自动]
[BLOGS_PODCASTS] | 3min | mic
METR Joel Becker谈指数级时间视界评估与威胁模型 03-02
METR
模型评估
威胁模型 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic模型蒸馏与SWE-Bench失效机制分析 03-01
Anthropic
模型蒸馏
SWE-Bench |
2026年二月
28 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic模型蒸馏与SWE-Bench失效机制分析 02-28
模型蒸馏
SWE-Bench
Anthropic |
[自动]
[ARXIV] | 2min | school
缓解可读性代价:基于解耦证明者-验证者博弈的方法 02-27
LLM
可解释性
模型评估 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Anthropic 模型蒸馏与 SWE-Bench 作弊机制分析 02-27
模型蒸馏
SWE-bench
奖励黑客 |
[自动]
[HACKER_NEWS] | 1min | newspaper
Anthropic 放弃其核心安全承诺 02-26
Anthropic
AI安全
对齐 |
[自动]
[HACKER_NEWS] | 3min | newspaper
Anthropic 放弃其核心安全承诺 02-26
Anthropic
AI安全
对齐 |
[自动]
[HACKER_NEWS] | 1min | newspaper
不要盲目信任Salt:AI摘要、多语言安全与LLM护栏 02-19
LLM
AI安全
护栏 |
[自动]
[HACKER_NEWS] | 3min | newspaper
尼克·博斯特罗姆新论文探讨超级智能的启动时机 02-13
超级智能
尼克·博斯特罗姆
AI安全 |
[自动]
[ARXIV] | 1min | school
Moltbook 漏洞:自进化 AI 社会中 Anthropic 安全机制失效 02-11
Anthropic
AI安全
对齐 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Frontier AI agents violate ethical constraints 30–50% o 02-10
AI Agent
对齐
伦理 |
[自动]
[HACKER_NEWS] | 3min | newspaper
Frontier AI agents violate ethical constraints 30–50% o 02-10
AI Agents
伦理约束
对齐 |
[自动]
[ARXIV] | 3min | school
大模型涌现性错位易修复,窄错位难修正 02-10
LLM
对齐
微调 |
[自动]
[HACKER_NEWS] | 4min | newspaper
基于人类反馈的强化学习:原理与应用 02-07
RLHF
强化学习
人类反馈 |
[自动]
[HACKER_NEWS] | 4min | newspaper
基于人类反馈的强化学习原理与应用 02-07
RLHF
强化学习
人类反馈 |
[自动]
[HACKER_NEWS] | 5min | newspaper
基于人类反馈的强化学习:原理与应用 02-07
RLHF
强化学习
人类反馈 |
[自动]
[HACKER_NEWS] | 7min | newspaper
基于人类反馈的强化学习机制解析 02-07
RLHF
强化学习
人类反馈 |
[自动]
[HACKER_NEWS] | 5min | newspaper
让信任变得无关紧要:玩家视角下的智能体安全 02-07
智能体
Agent安全
游戏理论 |
[自动]
[ARXIV] | 4min | school
重新思考大模型强化学习中的信任区域机制 02-06
强化学习
LLM
PPO |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型内部冲突 02-06
越狱
心理测量
前沿模型 |
[自动]
[ARXIV] | 5min | school
重新思考大模型强化学习中的信任区域 02-05
RLHF
PPO
强化学习 |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型的内部冲突 02-05
越狱
心理测量
前沿模型 |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型内部冲突 02-05
越狱
心理测量
前沿模型 |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型内部冲突 02-05
越狱
心理测量
前沿模型 |
[自动]
[ARXIV] | 4min | school
面向冲突目标的免奖励对齐方法 02-04
RACO
对齐
多目标优化 |
[自动]
[HACKER_NEWS] | 4min | newspaper
模型智能与任务复杂度如何影响对齐偏差 02-03
对齐
模型智能
任务复杂度 |
[自动]
[HACKER_NEWS] | 3min | newspaper
训练万亿参数模型使其具备幽默感 02-03
LLM
幽默感
万亿参数 |
[自动]
[ARXIV] | 3min | school
大语言模型稀疏奖励子系统 02-03
LLM
稀疏奖励
价值神经元 |
[自动]
[ARXIV] | 3min | school
大语言模型中角色作为潜变量:机制视角下的错位与安全失效 02-02
LLM
对齐
角色扮演 |
[自动]
[ARXIV] | 4min | school
CATTO:平衡语言模型偏好与置信度的方法 02-02
LLM
CATTO
校准 |
2026年一月
2 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
🚀ctELM:用ELM解码临床试验嵌入!精准操控💡 01-28
ctELM
临床试验
嵌入空间 |
[自动]
[ARXIV] | 4min | school
💥MortalMATH:当推理目标遇上紧急场景,AI会“翻车”吗? 01-28
LLM
推理模型
MortalMATH |
无匹配条目