LINK_STATUS: STABLE // ENCODING: UTF-8

SECTOR_ID: AI_STACK // MODE: LIST

terminal

AI Stack

时间 --:--:--

安全连接 rss_feed

SYS_STABLE

目录

奖励模型

条目：13

2026年二月 11 篇

类型	阅读	条目
[自动] [ARXIV]	4min	school MARS：基于边界感知与自我优化的奖励建模 02-23 RLHF 奖励模型 MARS
[自动] [ARXIV]	5min	school MARS：基于边际感知与自我精炼的奖励建模 02-20 MARS RLHF 奖励模型
[自动] [ARXIV]	4min	school P-GenRM：个性化生成式奖励模型与基于用户的测试时缩放 02-13 P-GenRM 个性化对齐奖励模型
[自动] [HACKER_NEWS]	4min	newspaper 基于人类反馈的强化学习：原理与应用 02-07 RLHF 强化学习人类反馈
[自动] [HACKER_NEWS]	5min	newspaper 基于人类反馈的强化学习原理与应用 02-07 RLHF 强化学习人类反馈
[自动] [HACKER_NEWS]	5min	newspaper 基于人类反馈的强化学习：原理与应用 02-07 RLHF 强化学习人类反馈
[自动] [HACKER_NEWS]	7min	newspaper 基于人类反馈的强化学习机制解析 02-07 RLHF 强化学习人类反馈
[自动] [ARXIV]	4min	school 通过文本反馈扩展强化学习的能力边界 02-04 强化学习 RLHF 文本反馈
[自动] [ARXIV]	4min	school RLAnything：构建完全动态强化学习系统环境与模型 02-04 RLAnything 强化学习 LLM
[自动] [ARXIV]	4min	school RLAnything：完全动态强化学习系统构建环境、策略与奖励模型 02-03 强化学习 RL LLM
[自动] [ARXIV]	4min	school 探索面向智能体的推理奖励模型 02-01 Agent RLHF 奖励模型

2026年一月 2 篇

类型	阅读	条目
[自动] [ARXIV]	5min	school 探索面向智能体的推理奖励模型 01-31 Agent 强化学习奖励模型
[自动] [BLOGS_PODCASTS]	3min	mic 🔥实战复盘：解锁GPT-OSS的智能体RL训练秘籍！ 01-28 强化学习智能体 Llama