目录
信任区域
条目:2
2026年二月
2 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
重新思考大模型强化学习中的信任区域机制 02-06
强化学习
LLM
PPO |
[自动]
[ARXIV] | 5min | school
重新思考大模型强化学习中的信任区域 02-05
RLHF
PPO
强化学习 |
无匹配条目
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
重新思考大模型强化学习中的信任区域机制 02-06
强化学习
LLM
PPO |
[自动]
[ARXIV] | 5min | school
重新思考大模型强化学习中的信任区域 02-05
RLHF
PPO
强化学习 |