terminal AI Stack

首页归档搜索标签 AI史塔克关于

TAGS / TERM

模型对齐

共 39 篇

ASMR-Bench：机器学习研究破坏行为审计基准 2026-04-20 · ARXIV
IH-Challenge训练提升前沿大模型指令层级与安全性 2026-03-11 · BLOGS_PODCASTS
IH-Challenge 训练提升前沿模型指令层级与抗注入能力 2026-03-10 · BLOGS_PODCASTS
OpenAI发现推理模型难以控制思维链凸显可监控性安全价值 2026-03-09 · BLOGS_PODCASTS
通过偏差有界评估实现可证明无偏的LLM评判者 2026-03-09 · ARXIV
OpenAI推出CoT-Control：强化推理模型可监控性 2026-03-08 · BLOGS_PODCASTS
OpenAI推出CoT-Control：强化推理模型思维链的可监控性 2026-03-08 · BLOGS_PODCASTS
OpenAI研究：推理模型思维链难控强化可监控安全性 2026-03-07 · BLOGS_PODCASTS
OpenAI研究揭示推理模型思维链难以控制凸显可监控性重要性 2026-03-07 · BLOGS_PODCASTS
GPT-5.4 Thinking 系统卡发布：推理架构与安全机制详解 2026-03-07 · BLOGS_PODCASTS
OpenAI研究：推理模型难以控制思维链凸显可监控性价值 2026-03-06 · BLOGS_PODCASTS
OpenAI推CoT-Control：验证思维链可监控性对AI安全的重要性 2026-03-06 · BLOGS_PODCASTS
OpenAI推出CoT-Control：思维链难控凸显可监控性安全价值 2026-03-06 · BLOGS_PODCASTS
OpenAI研究：推理模型难以掌控思维链强化AI安全 2026-03-06 · BLOGS_PODCASTS
OpenAI 推出 CoT-Control 并强调思维链监控的重要性 2026-03-05 · BLOGS_PODCASTS
METR探讨指数级时间视界评估、威胁模型与AI生产力边界 2026-03-02 · BLOGS_PODCASTS
可控推理模型：具备隐私保护能力的思维链 2026-03-02 · ARXIV
SOTAlign：基于最优传输的单模态视觉与语言模型半监督对齐 2026-03-01 · ARXIV
Anthropic 模型蒸馏与 SWE-Bench 作弊机制解析 2026-03-01 · BLOGS_PODCASTS
SOTAlign：基于最优传输的单模态视觉与语言模型半监督对齐 2026-02-28 · ARXIV
通过锚定机制提升模型一致性 2026-02-27 · ARXIV
SOTAlign：基于最优传输的单模态视觉与语言模型半监督对齐 2026-02-27 · ARXIV
用概念代数引导可解释的语言模型 2026-02-26 · HACKER_NEWS
MIT新方法根除漏洞并提升大语言模型安全性与性能 2026-02-23 · BLOGS_PODCASTS
MARS：基于边界感知与自我优化的奖励建模 2026-02-23 · ARXIV
MARS：基于边距感知奖励建模与自我精炼 2026-02-22 · ARXIV
MMARS：基于边际感知与自我精炼的奖励建模 2026-02-21 · ARXIV
MARS：基于边际感知与自我精炼的奖励建模 2026-02-20 · ARXIV
通过任务复杂度量化验证浅层对齐假说 2026-02-19 · ARXIV
长期对话导致LLM模仿用户观点并形成回声室 2026-02-18 · BLOGS_PODCASTS
语言模型对激活引导攻击的内生抗性研究 2026-02-09 · ARXIV
首个机制可解释性前沿实验室：Goodfire AI 创始人访谈 2026-02-06 · BLOGS_PODCASTS
CoT非真理链：推理LLM生成假新闻的实证内部分析 2026-02-05 · ARXIV
心理越狱揭示前沿模型内部冲突 2026-02-05 · HACKER_NEWS
通过文本反馈扩展强化学习的能力边界 2026-02-04 · ARXIV
模型对齐偏差如何随智能水平与任务复杂度演变 2026-02-03 · HACKER_NEWS
模型对齐问题如何随智能水平与任务复杂度演变 2026-02-03 · HACKER_NEWS
研究揭示RLHF如何加剧大模型谄媚行为 2026-02-03 · ARXIV
Nemotron-Personas-Brazil：主权AI协作设计数据集 2026-01-29 · BLOGS_PODCASTS