terminal

AI Stack

rss_feed
SYS_STABLE
目录

PPO

条目:15
2026年二月 10 篇
类型阅读条目
[自动] [ARXIV]
5minschool MMARS:基于边际感知与自我精炼的奖励建模
02-21 RLHF 奖励建模 数据增强
[自动] [ARXIV]
5minschool MARS:基于边际感知与自我精炼的奖励建模
02-20 MARS RLHF 奖励模型
[自动] [HACKER_NEWS]
4minnewspaper 基于人类反馈的强化学习:原理与应用
02-07 RLHF 强化学习 人类反馈
[自动] [HACKER_NEWS]
5minnewspaper 基于人类反馈的强化学习原理与应用
02-07 RLHF 强化学习 人类反馈
[自动] [HACKER_NEWS]
5minnewspaper 基于人类反馈的强化学习:原理与应用
02-07 RLHF 强化学习 人类反馈
[自动] [HACKER_NEWS]
7minnewspaper 基于人类反馈的强化学习机制解析
02-07 RLHF 强化学习 人类反馈
[自动] [ARXIV]
4minschool 重新思考大模型强化学习中的信任区域机制
02-06 强化学习 LLM PPO
[自动] [ARXIV]
5minschool 重新思考大模型强化学习中的信任区域
02-05 RLHF PPO 强化学习
[自动] [ARXIV]
4minschool IRL-DAL:基于能量引导扩散模型的安全自适应自动驾驶轨迹规划
02-03 扩散模型 自动驾驶 轨迹规划
[自动] [ARXIV]
4minschool IRL-DAL:基于能量引导扩散模型的自动驾驶安全自适应轨迹规划
02-02 自动驾驶 扩散模型 逆向强化学习
2026年一月 5 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
2minmic GPT-OSS实战复盘:解锁Agentic RL训练的突破性路径!🚀
01-28 GPT-OSS 强化学习 RL训练
[自动] [ARXIV]
4minschool 🚚🚀多目标强化学习!让卡车在高速车流中决策更高效、更智能!
01-28 强化学习 PPO 多目标优化
[自动] [ARXIV]
4minschool 🚛🚦高速公路卡车决策新突破!多目标强化学习让战术决策更高效!
01-27 强化学习 PPO 多目标优化
[自动] [BLOGS_PODCASTS]
4minmic 揭秘Agentic RL训练!GPT-OSS实战回顾,核心干货🔥
01-27 Agentic RL 强化学习 GPT-OSS
[自动] [BLOGS_PODCASTS]
3minmic 🚀GPT-OSS智能体RL训练解密!从0到1实战复盘🔥
01-27 强化学习 Agent GPT-OSS