目录
自我精炼
条目:2
2026年二月
2 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 5min | school
MMARS:基于边际感知与自我精炼的奖励建模 02-21
RLHF
奖励建模
数据增强 |
[自动]
[ARXIV] | 5min | school
MARS:基于边际感知与自我精炼的奖励建模 02-20
MARS
RLHF
奖励模型 |
无匹配条目
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 5min | school
MMARS:基于边际感知与自我精炼的奖励建模 02-21
RLHF
奖励建模
数据增强 |
[自动]
[ARXIV] | 5min | school
MARS:基于边际感知与自我精炼的奖励建模 02-20
MARS
RLHF
奖励模型 |