强化学习

条目：131

2026年二月 100 篇

类型	阅读	条目
[自动] [ARXIV]	4min	school 无模型通用AI框架 02-27 通用人工智能强化学习无模型
[自动] [ARXIV]	4min	school 提升推理语言模型的参数化知识获取能力 02-27 LLM 推理模型参数化知识
[自动] [ARXIV]	5min	school GUI-Libra：动作感知监督与可验证强化学习的原生GUI智能体 02-27 GUI Agent 强化学习 RL
[自动] [ARXIV]	4min	school 提升推理语言模型的参数化知识访问能力 02-26 推理模型参数化知识强化学习
[自动] [BLOGS_PODCASTS]	4min	mic 在 Amazon SageMaker 上使用 veRL 与 Ray 训练 CodeFu-7B 模型 02-26 SageMaker veRL Ray
[自动] [ARXIV]	4min	school Squint：面向机器人虚实迁移的快速视觉强化学习 02-26 强化学习机器人 Sim-to-Real
[自动] [BLOGS_PODCASTS]	5min	mic 基于 veRL 在 SageMaker 与 Ray 上训练 CodeFu-7B 模型 02-25 veRL SageMaker Ray
[自动] [ARXIV]	4min	school 基于试错反思的具身大模型测试时规划 02-25 具身智能反思机制测试时规划
[自动] [ARXIV]	4min	school Squint：面向机器人具身迁移的快速视觉强化学习 02-25 强化学习机器人 Sim-to-Real
[自动] [BLOGS_PODCASTS]	5min	mic 使用 veRL 和 Ray 在 SageMaker 上训练 CodeFu-7B 模型 02-25 veRL Ray SageMaker
[自动] [BLOGS_PODCASTS]	5min	mic 基于veRL与Ray在SageMaker上训练CodeFu-7B模型 02-25 veRL Ray SageMaker
[自动] [BLOGS_PODCASTS]	5min	mic 在 Amazon SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 模型 02-25 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]	5min	mic 在 SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 02-25 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]	5min	mic 在 Amazon SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 模型 02-25 SageMaker veRL Ray
[自动] [ARXIV]	4min	school 部分可观测平均场博弈的循环结构策略梯度算法 02-25 平均场博弈 MFG 策略梯度
[自动] [BLOGS_PODCASTS]	5min	mic 在 Amazon SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 模型 02-24 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]	5min	mic 在 SageMaker 上利用 veRL 与 Ray 训练 CodeFu-7B 02-24 LLM SageMaker Ray
[自动] [ARXIV]	4min	school 部分可观测平均场博弈的循环结构策略梯度算法 02-24 平均场博弈部分可观测策略梯度
[自动] [BLOGS_PODCASTS]	6min	mic 使用veRL和Ray在SageMaker上训练CodeFu-7B模型 02-24 SageMaker veRL Ray
[自动] [ARXIV]	4min	school 用于软优势策略优化的平滑门函数 02-24 强化学习 GRPO SAPO
[自动] [ARXIV]	5min	school Soft Sequence Policy Optimization：连接GMPO与SAPO 02-24 SSPO LLM对齐强化学习
[自动] [ARXIV]	4min	school 强化快速权重结合下一序列预测模型 02-20 REFINE 强化学习快速权重
[自动] [ARXIV]	5min	school Calibrate-Then-Act：面向大模型智能体的成本感知探索 02-20 LLM Agents 成本感知 CTA框架
[自动] [ARXIV]	4min	school 强化快速权重与下一序列预测 02-19 REFINE 快速权重强化学习
[自动] [ARXIV]	4min	school Dex4D：任务无关点跟踪策略实现灵巧操作Sim-to-Real 02-19 灵巧操作 Sim-to-Real 机器人
[自动] [ARXIV]	3min	school 利用强化学习解决未知可行性的参数鲁棒避障问题 02-18 强化学习鲁棒性避障
[自动] [ARXIV]	4min	school Dex4D：任务无关点跟踪策略实现灵巧操作跨域迁移 02-18 灵巧操作 Sim-to-Real 强化学习
[自动] [ARXIV]	3min	school 基于结构化世界模型先验的冷启动个性化方案 02-18 冷启动个性化世界模型
[自动] [ARXIV]	3min	school 基于结构化世界模型的无训练先验用于冷启动个性化 02-17 个性化冷启动世界模型
[自动] [ARXIV]	4min	school 过程监督多智能体强化学习提升临床推理可靠性 02-17 多智能体强化学习临床推理
[自动] [HACKER_NEWS]	4min	newspaper 研究：自生成的智能体技能通常无效 02-17 AI Agent 智能体 LLM
[自动] [ARXIV]	5min	school 基于枢纽重采样的LLM强化学习深度密集探索 02-17 LLM 强化学习 RLHF
[自动] [ARXIV]	4min	school 基于大语言模型的端到端网络事件自主响应方法 02-17 LLM Agent 网络安全事件响应
[自动] [ARXIV]	4min	school 仿真筛选模块化策略：从人类视频学习有效行为 02-16 机器人强化学习模仿学习
[自动] [HACKER_NEWS]	4min	newspaper 研究：自生成的Agent技能通常无效 02-16 Agent LLM 自生成技能
[自动] [ARXIV]	4min	school 面向语言模型的在线上下文蒸馏方法 02-16 LLM 蒸馏上下文学习
[自动] [ARXIV]	5min	school CM2：基于清单奖励强化学习的多步智能体工具调用 02-16 强化学习 Agent 工具调用
[自动] [ARXIV]	4min	school CM2：基于清单奖励强化学习的多步智能体工具调用 02-15 CM2 强化学习 Agent
[自动] [ARXIV]	5min	school CM2：基于清单奖励强化学习的多步多轮智能体工具调用 02-14 智能体强化学习工具调用
[自动] [ARXIV]	6min	school CM2：基于清单奖励强化学习的多轮多步智能体工具调用 02-13 强化学习 Agent 工具调用
[自动] [BLOGS_PODCASTS]	3min	mic Gemini 3 Deep Think：强化推理模式以应对科研与工程挑战 02-13 Gemini 3 Deep Think 推理模型
[自动] [ARXIV]	3min	school 能力导向训练引发大模型对齐风险研究 02-13 AI对齐强化学习奖励黑客
[自动] [ARXIV]	4min	school 基于奖励外推的广义在线策略蒸馏算法 02-13 LLM 强化学习知识蒸馏
[自动] [ARXIV]	4min	school 基于归一化流的高效分层目标条件强化学习 02-13 强化学习分层强化学习归一化流
[自动] [ARXIV]	3min	school 基于归一化流的高效分层目标条件强化学习 02-12 强化学习归一化流分层强化学习
[自动] [ARXIV]	5min	school Agent World Model：面向智能体强化学习的无限合成环境 02-12 Agent World Model 强化学习合成环境
[自动] [ARXIV]	4min	school CODE-SHARP：基于分层奖励程序的技能持续演化框架 02-11 CODE-SHARP 强化学习 RL
[自动] [ARXIV]	3min	school Agent World Model: Infinity Synthetic Environments for 02-11 Agent World Model 强化学习
[自动] [ARXIV]	2min	school Anagent For Enhancing Scientific Table & Figure Analysi 02-11 Anagent 多智能体科学图表分析
[自动] [ARXIV]	4min	school InftyThink+: 基于强化学习的高效无限视野推理框架 02-09 强化学习推理框架思维链
[自动] [ARXIV]	4min	school DreamDojo：基于大规模人类视频的通用机器人世界模型 02-09 机器人世界模型 DreamDojo
[自动] [ARXIV]	3min	school 视觉语言模型能否通过交互学习直观物理 02-09 VLM 直觉物理强化学习
[自动] [ARXIV]	4min	school 好奇心即知识：基于主动推理的自一致学习与无遗憾优化 02-09 主动推理好奇心自一致学习
[自动] [ARXIV]	3min	school 面向运行时智能体记忆的查询感知预算层路由 02-08 Agent LLM 智能体
[自动] [ARXIV]	4min	school 好奇心即知识：基于主动推理的自一致学习与无悔优化 02-08 主动推理好奇心探索与利用
[自动] [HACKER_NEWS]	4min	newspaper 基于人类反馈的强化学习：原理与应用 02-07 RLHF 强化学习人类反馈
[自动] [ARXIV]	5min	school 面向运行时智能体记忆的查询感知预算层路由 02-07 Agent LLM Memory
[自动] [ARXIV]	3min	school 视觉语言模型能否通过交互学习直观物理 02-07 VLM 多模态具身智能
[自动] [ARXIV]	3min	school 好奇心即知识：基于主动推理的自一致学习与无悔优化 02-07 主动推理强化学习好奇心
[自动] [HACKER_NEWS]	5min	newspaper 基于人类反馈的强化学习原理与应用 02-07 RLHF 强化学习人类反馈
[自动] [HACKER_NEWS]	5min	newspaper 基于人类反馈的强化学习：原理与应用 02-07 RLHF 强化学习人类反馈
[自动] [HACKER_NEWS]	7min	newspaper 基于人类反馈的强化学习机制解析 02-07 RLHF 强化学习人类反馈
[自动] [ARXIV]	3min	school 视觉语言模型能否通过交互学习直觉物理 02-06 VLM 直觉物理强化学习
[自动] [ARXIV]	3min	school 好奇心即知识：基于主动推理的自一致学习与无遗憾优化 02-06 主动推理探索与利用自由能
[自动] [ARXIV]	4min	school 受限群组相对策略优化 02-06 GRPO 强化学习策略优化
[自动] [ARXIV]	4min	school 重新思考大模型强化学习中的信任区域机制 02-06 强化学习 LLM PPO
[自动] [ARXIV]	4min	school 强化注意力学习：通过奖励机制优化视觉注意力模型 02-06 强化学习多模态注意力机制
[自动] [ARXIV]	4min	school CRoSS：面向可扩展强化学习的持续机器人仿真套件 02-06 强化学习机器人仿真 Gazebo
[自动] [ARXIV]	5min	school 重新思考大模型强化学习中的信任区域 02-05 RLHF PPO 强化学习
[自动] [ARXIV]	4min	school 强化注意力学习：基于奖励反馈的注意力机制优化方法 02-05 强化学习注意力机制多模态
[自动] [ARXIV]	5min	school CRoSS：面向可扩展强化学习的持续机器人仿真套件 02-05 强化学习持续学习机器人仿真
[自动] [ARXIV]	4min	school 基于急停干预的鲁棒干预学习 02-05 干预学习自动驾驶鲁棒性
[自动] [ARXIV]	3min	school 基于急停干预的鲁棒干预学习 02-04 强化学习 RL 自动驾驶
[自动] [ARXIV]	4min	school 利用权重更新稀疏性的通信高效分布式强化学习 02-04 分布式训练强化学习通信优化
[自动] [HACKER_NEWS]	5min	newspaper Agent Skills：AI 智能体技能框架与训练方法 02-04 Agent 智能体技能框架
[自动] [ARXIV]	4min	school 通过文本反馈扩展强化学习的能力边界 02-04 强化学习 RLHF 文本反馈
[自动] [ARXIV]	3min	school 训练LLM采用分治推理提升测试时扩展性 02-04 LLM 推理强化学习
[自动] [ARXIV]	5min	school 基于流策略梯度的机器人控制方法 02-04 机器人控制流匹配策略梯度
[自动] [ARXIV]	4min	school RLAnything：构建完全动态强化学习系统环境与模型 02-04 RLAnything 强化学习 LLM
[自动] [ARXIV]	3min	school 训练LLM采用分治推理提升测试时扩展性 02-03 LLM 推理强化学习
[自动] [ARXIV]	4min	school 基于流策略梯度的机器人控制方法 02-03 机器人控制流匹配策略梯度
[自动] [ARXIV]	4min	school 基于文本反馈扩展强化学习的能力 02-03 强化学习 RLHF 文本反馈
[自动] [ARXIV]	4min	school RLAnything：完全动态强化学习系统构建环境、策略与奖励模型 02-03 强化学习 RL LLM
[自动] [ARXIV]	4min	school MemSkill：赋予自进化代理学习与演进记忆技能 02-03 MemSkill 智能体记忆机制
[自动] [BLOGS_PODCASTS]	2min	mic NVIDIA Cosmos策略：提升机器人控制能力 02-03 NVIDIA Cosmos 机器人
[自动] [BLOGS_PODCASTS]	2min	mic NVIDIA Cosmos 策略模型提升机器人高级控制能力 02-03 NVIDIA Cosmos 机器人
[自动] [ARXIV]	3min	school 研究揭示RLHF如何加剧大模型谄媚行为 02-03 RLHF 谄媚行为模型偏见
[自动] [ARXIV]	4min	school 智能体推理与工具使用的竞争：量化干扰与解调优 02-03 智能体强化学习工具使用
[自动] [ARXIV]	3min	school 大语言模型稀疏奖励子系统 02-03 LLM 稀疏奖励价值神经元
[自动] [HACKER_NEWS]	4min	newspaper AI 基准测试新进展：Game Arena 推进评估方法 02-03 AI 基准测试 Game Arena 模型评估
[自动] [HACKER_NEWS]	5min	newspaper 利用Game Arena平台推进AI基准测试 02-03 AI基准测试 Game Arena LLM评估
[自动] [HACKER_NEWS]	4min	newspaper 用Game Arena平台推进AI基准测试 02-02 AI基准测试 Game Arena LLM评估
[自动] [ARXIV]	4min	school 共享自治系统中信念与策略学习的端到端优化 02-02 共享自治 BRACE 贝叶斯推断
[自动] [BLOGS_PODCASTS]	3min	mic NVIDIA Cosmos 策略模型提升机器人高级控制能力 02-02 NVIDIA Cosmos 机器人
[自动] [ARXIV]	4min	school RN-D：基于正则化网络的离散分类演员与同策强化学习 02-02 强化学习 RL 连续控制
[自动] [ARXIV]	4min	school 探索面向智能体的推理奖励模型 02-02 Agentic RL Reward Model 推理奖励
[自动] [ARXIV]	5min	school DynaWeb：基于模型的强化学习网页智能体 02-02 DynaWeb Web Agent 强化学习
[自动] [ARXIV]	4min	school 探索面向智能体的推理奖励模型 02-01 Agent RLHF 奖励模型
[自动] [ARXIV]	5min	school DynaWeb：基于模型的强化学习网页智能体 02-01 DynaWeb Web Agent 强化学习
[自动] [BLOGS_PODCASTS]	3min	mic NVIDIA Cosmos 策略模型提升机器人控制能力 02-01 NVIDIA Cosmos 机器人

2026年一月 31 篇

类型	阅读	条目
[自动] [ARXIV]	5min	school 探索面向智能体的推理奖励模型 01-31 Agent 强化学习奖励模型
[自动] [BLOGS_PODCASTS]	2min	mic NVIDIA Cosmos策略：面向高级机器人控制的新方法 01-31 NVIDIA 机器人 Cosmos
[自动] [ARXIV]	5min	school DynaWeb：基于模型的强化学习网页智能体框架 01-31 DynaWeb Web Agent 强化学习
[自动] [BLOGS_PODCASTS]	2min	mic NVIDIA Cosmos 策略模型提升机器人控制精度 01-31 NVIDIA Cosmos 机器人
[自动] [ARXIV]	5min	school 探索面向智能体的推理奖励模型 01-30 Agent 强化学习推理奖励模型
[自动] [BLOGS_PODCASTS]	2min	mic NVIDIA Cosmos策略：提升机器人高级控制能力 01-30 NVIDIA 机器人 Cosmos
[自动] [HACKER_NEWS]	4min	newspaper Kimi K2.5 技术报告发布：强化学习与长上下文能力升级 01-30 Kimi K2.5 强化学习
[自动] [ARXIV]	5min	school DynaWeb：基于模型的强化学习网页智能体 01-30 DynaWeb Web Agent 强化学习
[自动] [ARXIV]	4min	school 面向文本检索器域适应的影响引导采样方法 01-30 文本检索域适应密集检索
[自动] [ARXIV]	4min	school 基于认知上下文学习构建大模型多智能体系统的信任机制 01-30 多智能体信任机制 ECL
[自动] [ARXIV]	3min	school 基于经验的试错算法超越语言模型 01-30 LLM SCOUT 探索与利用
[自动] [BLOGS_PODCASTS]	2min	mic NVIDIA Cosmos策略：提升机器人控制能力 01-29 NVIDIA 机器人 Cosmos
[自动] [BLOGS_PODCASTS]	3min	mic 🔥实战复盘：解锁GPT-OSS的智能体RL训练秘籍！ 01-28 强化学习智能体 Llama
[自动] [ARXIV]	4min	school 🔥动态环境下的对抗约束：Bandits算法如何应对未知挑战？ 01-28 Bandits 对抗约束动态环境
[自动] [BLOGS_PODCASTS]	2min	mic GPT-OSS实战复盘：解锁Agentic RL训练的突破性路径！🚀 01-28 GPT-OSS 强化学习 RL训练
[自动] [ARXIV]	4min	school 🚚🚀多目标强化学习！让卡车在高速车流中决策更高效、更智能！ 01-28 强化学习 PPO 多目标优化
[自动] [ARXIV]	4min	school 🚀复用FLOPs！RL突破性扩展：超离策略前缀如何解决硬难题？ 01-28 强化学习 RL LLM
[自动] [ARXIV]	4min	school 🔥模型自学革命！突破可学习性边界，推理能力暴涨！ 01-28 SOAR 强化学习推理能力
[自动] [ARXIV]	5min	school 🔥POPE：利用特权探索破解硬核难题！ 01-28 POPE 强化学习 LLM
[自动] [ARXIV]	4min	school 突破极限！AI如何教会自己推理？🤯 边缘学习性的惊天秘密！🚀 01-27 SOAR 强化学习元学习
[自动] [BLOGS_PODCASTS]	4min	mic 实战复盘：解锁GPT-OSS智能体强化训练！🚀 01-27 强化学习智能体模型蒸馏
[自动] [ARXIV]	4min	school 🚛🚦高速公路卡车决策新突破！多目标强化学习让战术决策更高效！ 01-27 强化学习 PPO 多目标优化
[自动] [ARXIV]	5min	school 🚀RL新突破！复用FLOPs，硬难题上通过离线前缀扩展 01-27 PrefixRL 强化学习 LLM
[自动] [ARXIV]	4min	school 🔥POPE：用特权探索让AI学会解决复杂难题！ 01-27 强化学习 LLM 推理能力
[自动] [BLOGS_PODCASTS]	4min	mic 揭秘Agentic RL训练！GPT-OSS实战回顾，核心干货🔥 01-27 Agentic RL 强化学习 GPT-OSS
[自动] [HACKER_NEWS]	3min	newspaper Kimi K2.5震撼开源！视觉SOTA Agent模型，性能炸裂🔥 01-27 Kimi K2.5 多模态
[自动] [BLOGS_PODCASTS]	3min	mic 🚀GPT-OSS智能体RL训练解密！从0到1实战复盘🔥 01-27 强化学习 Agent GPT-OSS
[自动] [BLOGS_PODCASTS]	3min	mic Unlocking Agentic RL Training for GPT-OSS: A Practical Retrospective 01-27 Agentic RL 强化学习 GPT-OSS
[自动] [ARXIV]	7min	school 高效定理证明新突破！结构化提示实现少样本学习 🚀 01-25 定理证明 Lean DeepSeek-Prover
[自动] [ARXIV]	4min	school 测试时也能发现新规律？🤯AI解锁动态学习能力！ 01-25 TTT-Discover 测试时训练强化学习
[自动] [ARXIV]	5min	school 🚀沙盒机制唤醒LLM智能体通用能力！AI Agent突破性架构！ 01-25 LLM AI Agent 沙盒机制