terminal

AI Stack

rss_feed
SYS_STABLE
目录

奖励模型

条目:13
2026年二月 11 篇
类型阅读条目
[自动] [ARXIV]
4minschool MARS:基于边界感知与自我优化的奖励建模
02-23 RLHF 奖励模型 MARS
[自动] [ARXIV]
5minschool MARS:基于边际感知与自我精炼的奖励建模
02-20 MARS RLHF 奖励模型
[自动] [ARXIV]
4minschool P-GenRM:个性化生成式奖励模型与基于用户的测试时缩放
02-13 P-GenRM 个性化对齐 奖励模型
[自动] [HACKER_NEWS]
4minnewspaper 基于人类反馈的强化学习:原理与应用
02-07 RLHF 强化学习 人类反馈
[自动] [HACKER_NEWS]
5minnewspaper 基于人类反馈的强化学习原理与应用
02-07 RLHF 强化学习 人类反馈
[自动] [HACKER_NEWS]
5minnewspaper 基于人类反馈的强化学习:原理与应用
02-07 RLHF 强化学习 人类反馈
[自动] [HACKER_NEWS]
7minnewspaper 基于人类反馈的强化学习机制解析
02-07 RLHF 强化学习 人类反馈
[自动] [ARXIV]
4minschool 通过文本反馈扩展强化学习的能力边界
02-04 强化学习 RLHF 文本反馈
[自动] [ARXIV]
4minschool RLAnything:构建完全动态强化学习系统环境与模型
02-04 RLAnything 强化学习 LLM
[自动] [ARXIV]
4minschool RLAnything:完全动态强化学习系统构建环境、策略与奖励模型
02-03 强化学习 RL LLM
[自动] [ARXIV]
4minschool 探索面向智能体的推理奖励模型
02-01 Agent RLHF 奖励模型
2026年一月 2 篇
类型阅读条目
[自动] [ARXIV]
5minschool 探索面向智能体的推理奖励模型
01-31 Agent 强化学习 奖励模型
[自动] [BLOGS_PODCASTS]
3minmic 🔥实战复盘:解锁GPT-OSS的智能体RL训练秘籍!
01-28 强化学习 智能体 Llama