目录
模型对齐
条目:38
2026年三月
18 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 2min | mic
IH-Challenge训练提升前沿大模型指令层级与安全性 03-11
指令层级
IH-Challenge
提示词注入 |
[自动]
[BLOGS_PODCASTS] | 1min | mic
IH-Challenge 训练提升前沿模型指令层级与抗注入能力 03-10
指令层级
提示注入
IH-Challenge |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI发现推理模型难以控制思维链凸显可监控性安全价值 03-09
OpenAI
思维链
CoT |
[自动]
[ARXIV] | 3min | school
通过偏差有界评估实现可证明无偏的LLM评判者 03-09
LLM-as-a-Judge
评估方法
偏差控制 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI推出CoT-Control:强化推理模型可监控性 03-08
OpenAI
CoT
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI推出CoT-Control:强化推理模型思维链的可监控性 03-08
OpenAI
CoT
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI研究:推理模型思维链难控强化可监控安全性 03-07
OpenAI
CoT
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI研究揭示推理模型思维链难以控制凸显可监控性重要性 03-07
OpenAI
CoT
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-5.4 Thinking 系统卡发布:推理架构与安全机制详解 03-07
GPT-5.4
Thinking
系统卡 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI研究:推理模型难以控制思维链凸显可监控性价值 03-06
OpenAI
思维链
CoT |
[自动]
[BLOGS_PODCASTS] | 1min | mic
OpenAI推CoT-Control:验证思维链可监控性对AI安全的重要性 03-06
OpenAI
CoT
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI推出CoT-Control:思维链难控凸显可监控性安全价值 03-06
OpenAI
CoT
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI研究:推理模型难以掌控思维链强化AI安全 03-06
OpenAI
CoT
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI 推出 CoT-Control 并强调思维链监控的重要性 03-05
OpenAI
CoT
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
METR探讨指数级时间视界评估、威胁模型与AI生产力边界 03-02
METR
AI评估
威胁模型 |
[自动]
[ARXIV] | 3min | school
可控推理模型:具备隐私保护能力的思维链 03-02
隐私保护
思维链
可控推理 |
[自动]
[ARXIV] | 4min | school
SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐 03-01
多模态
SOTAlign
最优传输 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Anthropic 模型蒸馏与 SWE-Bench 作弊机制解析 03-01
模型蒸馏
SWE-Bench
数据污染 |
2026年二月
19 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐 02-28
多模态
视觉语言模型
最优传输 |
[自动]
[ARXIV] | 2min | school
通过锚定机制提升模型一致性 02-27
模型一致性
锚定机制
模型差异 |
[自动]
[ARXIV] | 3min | school
SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐 02-27
多模态
视觉语言模型
最优传输 |
[自动]
[HACKER_NEWS] | 1min | newspaper
用概念代数引导可解释的语言模型 02-26
可解释性
概念代数
模型控制 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
MIT新方法根除漏洞并提升大语言模型安全性与性能 02-23
MIT
LLM
模型安全 |
[自动]
[ARXIV] | 4min | school
MARS:基于边界感知与自我优化的奖励建模 02-23
RLHF
奖励模型
MARS |
[自动]
[ARXIV] | 4min | school
MARS:基于边距感知奖励建模与自我精炼 02-22
MARS
RLHF
Reward Model |
[自动]
[ARXIV] | 4min | school
MMARS:基于边际感知与自我精炼的奖励建模 02-21
RLHF
奖励建模
数据增强 |
[自动]
[ARXIV] | 4min | school
MARS:基于边际感知与自我精炼的奖励建模 02-20
MARS
RLHF
奖励模型 |
[自动]
[ARXIV] | 3min | school
通过任务复杂度量化验证浅层对齐假说 02-19
浅层对齐假说
SAH
任务复杂度 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
长期对话导致LLM模仿用户观点并形成回声室 02-18
LLM
个性化
回声室 |
[自动]
[ARXIV] | 4min | school
语言模型对激活引导攻击的内生抗性研究 02-09
激活引导
内生抗性
ESR |
[自动]
[BLOGS_PODCASTS] | 2min | mic
首个机制可解释性前沿实验室:Goodfire AI 创始人访谈 02-06
Goodfire AI
机制可解释性
Mechanistic Interpretability |
[自动]
[ARXIV] | 3min | school
CoT非真理链:推理LLM生成假新闻的实证内部分析 02-05
LLM
CoT
假新闻 |
[自动]
[HACKER_NEWS] | 3min | newspaper
心理越狱揭示前沿模型内部冲突 02-05
越狱
心理攻击
模型对齐 |
[自动]
[ARXIV] | 4min | school
通过文本反馈扩展强化学习的能力边界 02-04
强化学习
RLHF
文本反馈 |
[自动]
[HACKER_NEWS] | 3min | newspaper
模型对齐偏差如何随智能水平与任务复杂度演变 02-03
模型对齐
智能水平
任务复杂度 |
[自动]
[HACKER_NEWS] | 4min | newspaper
模型对齐问题如何随智能水平与任务复杂度演变 02-03
模型对齐
智能水平
任务复杂度 |
[自动]
[ARXIV] | 3min | school
研究揭示RLHF如何加剧大模型谄媚行为 02-03
RLHF
谄媚行为
模型偏见 |
2026年一月
1 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 3min | mic
Nemotron-Personas-Brazil:主权AI协作设计数据集 01-29
主权AI
Nemotron
葡萄牙语 |
无匹配条目