目录
奖励模型
条目:13
2026年二月
11 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
MARS:基于边界感知与自我优化的奖励建模 02-23
RLHF
奖励模型
MARS |
[自动]
[ARXIV] | 5min | school
MARS:基于边际感知与自我精炼的奖励建模 02-20
MARS
RLHF
奖励模型 |
[自动]
[ARXIV] | 4min | school
P-GenRM:个性化生成式奖励模型与基于用户的测试时缩放 02-13
P-GenRM
个性化对齐
奖励模型 |
[自动]
[HACKER_NEWS] | 4min | newspaper
基于人类反馈的强化学习:原理与应用 02-07
RLHF
强化学习
人类反馈 |
[自动]
[HACKER_NEWS] | 5min | newspaper
基于人类反馈的强化学习原理与应用 02-07
RLHF
强化学习
人类反馈 |
[自动]
[HACKER_NEWS] | 5min | newspaper
基于人类反馈的强化学习:原理与应用 02-07
RLHF
强化学习
人类反馈 |
[自动]
[HACKER_NEWS] | 7min | newspaper
基于人类反馈的强化学习机制解析 02-07
RLHF
强化学习
人类反馈 |
[自动]
[ARXIV] | 4min | school
通过文本反馈扩展强化学习的能力边界 02-04
强化学习
RLHF
文本反馈 |
[自动]
[ARXIV] | 4min | school
RLAnything:构建完全动态强化学习系统环境与模型 02-04
RLAnything
强化学习
LLM |
[自动]
[ARXIV] | 4min | school
RLAnything:完全动态强化学习系统构建环境、策略与奖励模型 02-03
强化学习
RL
LLM |
[自动]
[ARXIV] | 4min | school
探索面向智能体的推理奖励模型 02-01
Agent
RLHF
奖励模型 |
2026年一月
2 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 5min | school
探索面向智能体的推理奖励模型 01-31
Agent
强化学习
奖励模型 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
🔥实战复盘:解锁GPT-OSS的智能体RL训练秘籍! 01-28
强化学习
智能体
Llama |
无匹配条目