LINK_STATUS: STABLE // ENCODING: UTF-8

SECTOR_ID: AI_STACK // MODE: LIST

terminal

AI Stack

时间 --:--:--

安全连接 rss_feed

SYS_STABLE

目录

模型对齐

条目：21

2026年三月 1 篇

类型	阅读	条目
[自动] [ARXIV]	4min	school SOTAlign：基于最优传输的单模态视觉与语言模型半监督对齐 03-01 多模态视觉语言模型最优传输

2026年二月 19 篇

类型	阅读	条目
[自动] [ARXIV]	4min	school SOTAlign：基于最优传输的单模态视觉与语言模型半监督对齐 02-28 多模态视觉语言模型最优传输
[自动] [ARXIV]	3min	school 通过锚定机制提升模型一致性 02-27 模型一致性锚定机制模型差异
[自动] [ARXIV]	4min	school SOTAlign：基于最优传输的单模态视觉与语言模型半监督对齐 02-27 多模态视觉语言模型最优传输
[自动] [HACKER_NEWS]	4min	newspaper 用概念代数引导可解释的语言模型 02-26 可解释性概念代数模型控制
[自动] [BLOGS_PODCASTS]	2min	mic MIT新方法根除漏洞并提升大语言模型安全性与性能 02-23 MIT LLM 模型安全
[自动] [ARXIV]	4min	school MARS：基于边界感知与自我优化的奖励建模 02-23 RLHF 奖励模型 MARS
[自动] [ARXIV]	4min	school MARS：基于边距感知奖励建模与自我精炼 02-22 MARS RLHF Reward Model
[自动] [ARXIV]	5min	school MMARS：基于边际感知与自我精炼的奖励建模 02-21 RLHF 奖励建模数据增强
[自动] [ARXIV]	5min	school MARS：基于边际感知与自我精炼的奖励建模 02-20 MARS RLHF 奖励模型
[自动] [ARXIV]	3min	school 通过任务复杂度量化验证浅层对齐假说 02-19 浅层对齐假说 SAH 任务复杂度
[自动] [BLOGS_PODCASTS]	2min	mic 长期对话导致LLM模仿用户观点并形成回声室 02-18 LLM 个性化回声室
[自动] [ARXIV]	4min	school 语言模型对激活引导攻击的内生抗性研究 02-09 激活引导内生抗性 ESR
[自动] [BLOGS_PODCASTS]	2min	mic 首个机制可解释性前沿实验室：Goodfire AI 创始人访谈 02-06 Goodfire AI 机制可解释性 Mechanistic Interpretability
[自动] [ARXIV]	3min	school CoT非真理链：推理LLM生成假新闻的实证内部分析 02-05 LLM CoT 假新闻
[自动] [HACKER_NEWS]	3min	newspaper 心理越狱揭示前沿模型内部冲突 02-05 越狱心理攻击模型对齐
[自动] [ARXIV]	4min	school 通过文本反馈扩展强化学习的能力边界 02-04 强化学习 RLHF 文本反馈
[自动] [HACKER_NEWS]	3min	newspaper 模型对齐偏差如何随智能水平与任务复杂度演变 02-03 模型对齐智能水平任务复杂度
[自动] [HACKER_NEWS]	4min	newspaper 模型对齐问题如何随智能水平与任务复杂度演变 02-03 模型对齐智能水平任务复杂度
[自动] [ARXIV]	3min	school 研究揭示RLHF如何加剧大模型谄媚行为 02-03 RLHF 谄媚行为模型偏见

2026年一月 1 篇

类型	阅读	条目
[自动] [BLOGS_PODCASTS]	3min	mic Nemotron-Personas-Brazil：主权AI协作设计数据集 01-29 主权AI Nemotron 葡萄牙语