AI Stack 探索 AI 技术前沿，分享深度思考与实践

条目: 1989
延迟: —
最新内容: 2026-07-15 20:45; 非站点部署时间
当前时间: --:--:--

首页归档搜索标签 AI史塔克关于

TAGS / TERM

奖励建模

共 4 篇

感知扰动与奖励建模缓解多模态LLM判断偏差 2026-06-02 · ARXIV
AlphaGRPO：分解式可验证奖励赋能多模态生成自我反思 2026-05-13 · ARXIV
LLM评测新范式：从表面启发式到知识 grounded 评估 2026-03-12 · ARXIV
超越VLM奖励：扩散原生潜在奖励建模 2026-02-12 · ARXIV