terminal

AI Stack

rss_feed
SYS_STABLE
目录

奖励建模

条目:5
2026年五月 1 篇
类型阅读条目
[自动] [ARXIV]
1minschool AlphaGRPO:分解式可验证奖励赋能多模态生成自我反思
05-13 多模态生成 自反思 可验证奖励
2026年三月 1 篇
类型阅读条目
[自动] [ARXIV]
3minschool LLM评测新范式:从表面启发式到知识 grounded 评估
03-12 LLM评测 LLM-as-a-Judge MERG框架
2026年二月 3 篇
类型阅读条目
[自动] [ARXIV]
4minschool MMARS:基于边际感知与自我精炼的奖励建模
02-21 RLHF 奖励建模 数据增强
[自动] [ARXIV]
4minschool 超越VLM奖励:扩散原生潜在奖励建模
02-13 扩散模型 DiNa-LRM 奖励建模
[自动] [ARXIV]
4minschool 超越VLM奖励:扩散原生潜在奖励建模
02-12 扩散模型 DiNa-LRM 奖励建模