目录
PPO
条目:15
2026年二月
10 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 5min | school
MMARS:基于边际感知与自我精炼的奖励建模 02-21
RLHF
奖励建模
数据增强 |
[自动]
[ARXIV] | 5min | school
MARS:基于边际感知与自我精炼的奖励建模 02-20
MARS
RLHF
奖励模型 |
[自动]
[HACKER_NEWS] | 4min | newspaper
基于人类反馈的强化学习:原理与应用 02-07
RLHF
强化学习
人类反馈 |
[自动]
[HACKER_NEWS] | 5min | newspaper
基于人类反馈的强化学习原理与应用 02-07
RLHF
强化学习
人类反馈 |
[自动]
[HACKER_NEWS] | 5min | newspaper
基于人类反馈的强化学习:原理与应用 02-07
RLHF
强化学习
人类反馈 |
[自动]
[HACKER_NEWS] | 7min | newspaper
基于人类反馈的强化学习机制解析 02-07
RLHF
强化学习
人类反馈 |
[自动]
[ARXIV] | 4min | school
重新思考大模型强化学习中的信任区域机制 02-06
强化学习
LLM
PPO |
[自动]
[ARXIV] | 5min | school
重新思考大模型强化学习中的信任区域 02-05
RLHF
PPO
强化学习 |
[自动]
[ARXIV] | 4min | school
IRL-DAL:基于能量引导扩散模型的安全自适应自动驾驶轨迹规划 02-03
扩散模型
自动驾驶
轨迹规划 |
[自动]
[ARXIV] | 4min | school
IRL-DAL:基于能量引导扩散模型的自动驾驶安全自适应轨迹规划 02-02
自动驾驶
扩散模型
逆向强化学习 |
2026年一月
5 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-OSS实战复盘:解锁Agentic RL训练的突破性路径!🚀 01-28
GPT-OSS
强化学习
RL训练 |
[自动]
[ARXIV] | 4min | school
🚚🚀多目标强化学习!让卡车在高速车流中决策更高效、更智能! 01-28
强化学习
PPO
多目标优化 |
[自动]
[ARXIV] | 4min | school
🚛🚦高速公路卡车决策新突破!多目标强化学习让战术决策更高效! 01-27
强化学习
PPO
多目标优化 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
揭秘Agentic RL训练!GPT-OSS实战回顾,核心干货🔥 01-27
Agentic RL
强化学习
GPT-OSS |
[自动]
[BLOGS_PODCASTS] | 3min | mic
🚀GPT-OSS智能体RL训练解密!从0到1实战复盘🔥 01-27
强化学习
Agent
GPT-OSS |
无匹配条目