AI Stack 探索 AI 技术前沿，分享深度思考与实践

条目: 1987
延迟: —
最新内容: 2026-07-15 14:00; 非站点部署时间
当前时间: --:--:--

首页归档搜索标签 AI史塔克关于

TAGS / TERM

对齐

共 23 篇

语言模型方向判断的认知机制 2026-06-16 · ARXIV
大模型输出的“隐性结构塌缩”问题及对策 2026-04-19 · JUEJIN
大语言模型生成有害内容的统一机制 2026-04-13 · ARXIV
大语言模型道德冷漠现象的机制起源研究 2026-03-17 · ARXIV
LLM宪法多智能体治理框架 2026-03-16 · ARXIV
基于PPO的树搜索蒸馏技术优化语言模型 2026-03-15 · HACKER_NEWS
探究推理LLM作为非可验证后训练评估器的有效性 2026-03-13 · ARXIV
推理机制如何提升大模型的诚实度 2026-03-11 · ARXIV
移除开源大模型审查机制的工具 2026-03-06 · HACKER_NEWS
基于内部激活监测生成过程中的突发奖励黑客行为 2026-03-05 · ARXIV
缓解可读性代价：基于解耦证明者-验证者博弈的方法 2026-02-27 · ARXIV
Anthropic模型蒸馏与SWE-Bench失效机制分析 2026-02-26 · BLOGS_PODCASTS
尼克·博斯特罗姆新论文探讨超级智能的启动时机 2026-02-13 · HACKER_NEWS
Moltbook 漏洞：自进化 AI 社会中 Anthropic 安全机制失效 2026-02-11 · ARXIV
大模型涌现性错位易修复，窄错位难修正 2026-02-10 · ARXIV
基于人类反馈的强化学习原理与应用 2026-02-07 · HACKER_NEWS
让信任变得无关紧要：玩家视角下的智能体安全 2026-02-07 · HACKER_NEWS
重新思考大模型强化学习中的信任区域机制 2026-02-05 · ARXIV
训练万亿参数模型使其具备幽默感 2026-02-03 · HACKER_NEWS
大语言模型稀疏奖励子系统 2026-02-03 · ARXIV
大语言模型中角色作为潜变量：机制视角下的错位与安全失效 2026-02-02 · ARXIV
CATTO：平衡语言模型偏好与置信度的方法 2026-02-02 · ARXIV
🚀ctELM：用ELM解码临床试验嵌入！精准操控💡 2026-01-27 · ARXIV