LINK_STATUS: STABLE // ENCODING: UTF-8

SECTOR_ID: AI_STACK // MODE: LIST

terminal

AI Stack

时间 --:--:--

安全连接 rss_feed

SYS_STABLE

目录

PPO

条目：15

2026年二月 10 篇

类型	阅读	条目
[自动] [ARXIV]	5min	school MMARS：基于边际感知与自我精炼的奖励建模 02-21 RLHF 奖励建模数据增强
[自动] [ARXIV]	5min	school MARS：基于边际感知与自我精炼的奖励建模 02-20 MARS RLHF 奖励模型
[自动] [HACKER_NEWS]	4min	newspaper 基于人类反馈的强化学习：原理与应用 02-07 RLHF 强化学习人类反馈
[自动] [HACKER_NEWS]	5min	newspaper 基于人类反馈的强化学习原理与应用 02-07 RLHF 强化学习人类反馈
[自动] [HACKER_NEWS]	5min	newspaper 基于人类反馈的强化学习：原理与应用 02-07 RLHF 强化学习人类反馈
[自动] [HACKER_NEWS]	7min	newspaper 基于人类反馈的强化学习机制解析 02-07 RLHF 强化学习人类反馈
[自动] [ARXIV]	4min	school 重新思考大模型强化学习中的信任区域机制 02-06 强化学习 LLM PPO
[自动] [ARXIV]	5min	school 重新思考大模型强化学习中的信任区域 02-05 RLHF PPO 强化学习
[自动] [ARXIV]	4min	school IRL-DAL：基于能量引导扩散模型的安全自适应自动驾驶轨迹规划 02-03 扩散模型自动驾驶轨迹规划
[自动] [ARXIV]	4min	school IRL-DAL：基于能量引导扩散模型的自动驾驶安全自适应轨迹规划 02-02 自动驾驶扩散模型逆向强化学习

2026年一月 5 篇

类型	阅读	条目
[自动] [BLOGS_PODCASTS]	2min	mic GPT-OSS实战复盘：解锁Agentic RL训练的突破性路径！🚀 01-28 GPT-OSS 强化学习 RL训练
[自动] [ARXIV]	4min	school 🚚🚀多目标强化学习！让卡车在高速车流中决策更高效、更智能！ 01-28 强化学习 PPO 多目标优化
[自动] [ARXIV]	4min	school 🚛🚦高速公路卡车决策新突破！多目标强化学习让战术决策更高效！ 01-27 强化学习 PPO 多目标优化
[自动] [BLOGS_PODCASTS]	4min	mic 揭秘Agentic RL训练！GPT-OSS实战回顾，核心干货🔥 01-27 Agentic RL 强化学习 GPT-OSS
[自动] [BLOGS_PODCASTS]	3min	mic 🚀GPT-OSS智能体RL训练解密！从0到1实战复盘🔥 01-27 强化学习 Agent GPT-OSS