terminal

AI Stack

rss_feed
SYS_STABLE
目录

模型对齐

条目:21
2026年三月 1 篇
类型阅读条目
[自动] [ARXIV]
4minschool SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐
03-01 多模态 视觉语言模型 最优传输
2026年二月 19 篇
类型阅读条目
[自动] [ARXIV]
4minschool SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐
02-28 多模态 视觉语言模型 最优传输
[自动] [ARXIV]
3minschool 通过锚定机制提升模型一致性
02-27 模型一致性 锚定机制 模型差异
[自动] [ARXIV]
4minschool SOTAlign:基于最优传输的单模态视觉与语言模型半监督对齐
02-27 多模态 视觉语言模型 最优传输
[自动] [HACKER_NEWS]
4minnewspaper 用概念代数引导可解释的语言模型
02-26 可解释性 概念代数 模型控制
[自动] [BLOGS_PODCASTS]
2minmic MIT新方法根除漏洞并提升大语言模型安全性与性能
02-23 MIT LLM 模型安全
[自动] [ARXIV]
4minschool MARS:基于边界感知与自我优化的奖励建模
02-23 RLHF 奖励模型 MARS
[自动] [ARXIV]
4minschool MARS:基于边距感知奖励建模与自我精炼
02-22 MARS RLHF Reward Model
[自动] [ARXIV]
5minschool MMARS:基于边际感知与自我精炼的奖励建模
02-21 RLHF 奖励建模 数据增强
[自动] [ARXIV]
5minschool MARS:基于边际感知与自我精炼的奖励建模
02-20 MARS RLHF 奖励模型
[自动] [ARXIV]
3minschool 通过任务复杂度量化验证浅层对齐假说
02-19 浅层对齐假说 SAH 任务复杂度
[自动] [BLOGS_PODCASTS]
2minmic 长期对话导致LLM模仿用户观点并形成回声室
02-18 LLM 个性化 回声室
[自动] [ARXIV]
4minschool 语言模型对激活引导攻击的内生抗性研究
02-09 激活引导 内生抗性 ESR
[自动] [BLOGS_PODCASTS]
2minmic 首个机制可解释性前沿实验室:Goodfire AI 创始人访谈
02-06 Goodfire AI 机制可解释性 Mechanistic Interpretability
[自动] [ARXIV]
3minschool CoT非真理链:推理LLM生成假新闻的实证内部分析
02-05 LLM CoT 假新闻
[自动] [HACKER_NEWS]
3minnewspaper 心理越狱揭示前沿模型内部冲突
02-05 越狱 心理攻击 模型对齐
[自动] [ARXIV]
4minschool 通过文本反馈扩展强化学习的能力边界
02-04 强化学习 RLHF 文本反馈
[自动] [HACKER_NEWS]
3minnewspaper 模型对齐偏差如何随智能水平与任务复杂度演变
02-03 模型对齐 智能水平 任务复杂度
[自动] [HACKER_NEWS]
4minnewspaper 模型对齐问题如何随智能水平与任务复杂度演变
02-03 模型对齐 智能水平 任务复杂度
[自动] [ARXIV]
3minschool 研究揭示RLHF如何加剧大模型谄媚行为
02-03 RLHF 谄媚行为 模型偏见
2026年一月 1 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
3minmic Nemotron-Personas-Brazil:主权AI协作设计数据集
01-29 主权AI Nemotron 葡萄牙语