强化学习

条目：198

2026年五月 6 篇

类型	阅读	条目
[自动] [ARXIV]	1min	school 可验证高并行移动GUI智能体仿真平台 05-26 移动GUI智能体仿真平台可验证性
[自动] [ARXIV]	1min	school SkillOpt：自进化智能体技能的优化策略 05-25 自进化智能体技能优化
[自动] [ARXIV]	1min	school AlphaGRPO：分解式可验证奖励赋能多模态生成自我反思 05-13 多模态生成自反思可验证奖励
[自动] [BLOGS_PODCASTS]	1min	mic vLLM V0到V1：正确性优先于修正的RL演进 05-06 vLLM V0 V1
[自动] [BLOGS_PODCASTS]	1min	mic 多智能体环境下的策略推理研究 05-05 多智能体系统策略推理博弈论
[自动] [ARXIV]	2min	school 机器人强化学习泛化能力：SHAP视角下的算法与超参数分析 05-05 强化学习泛化能力 SHAP

2026年四月 7 篇

类型	阅读	条目
[自动] [BLOGS_PODCASTS]	2min	mic Amazon Nova模型的RLAIF强化学习微调实践 04-30 Amazon Nova RLAIF 强化学习
[自动] [BLOGS_PODCASTS]	2min	mic 使用Lambda设计Amazon Nova模型的奖励函数指南 04-14 RLVR RLAIF 奖励函数
[自动] [BLOGS_PODCASTS]	2min	mic AWS Lambda为Amazon Nova构建可扩展奖励函数的最佳实践 04-13 AWS Lambda Amazon Nova 强化学习
[自动] [ARXIV]	1min	school 代理多模态模型的元认知工具使用策略 04-12 多模态模型工具调用元认知
[自动] [ARXIV]	2min	school 发展代理多模态模型的元认知工具使用能力 04-11 多模态代理工具调用优化元认知
[自动] [ARXIV]	1min	school 面向代理多模态模型的元认知工具使用培养 04-10 多模态模型强化学习工具使用
[自动] [BLOGS_PODCASTS]	1min	mic ALTK-Evolve让AI代理边工作边学习 04-08 AI代理持续学习在线学习

2026年三月 54 篇

类型	阅读	条目
[自动] [JUEJIN]	1min	sticky_note_2 机器学习：先看数据标签再选算法 03-20 机器学习算法分类监督学习
[自动] [ARXIV]	3min	school 边缘端高效推理：资源受限设备的模型优化方法 03-18 边缘计算模型压缩高效推理
[自动] [ARXIV]	3min	school 对抗性腐败与重尾噪声下的鲁棒高效线性情境老虎机算法 03-18 强化学习情境老虎机鲁棒性
[自动] [ARXIV]	4min	school Code-A1：基于强化学习的代码与测试大模型对抗进化 03-18 Code-A1 强化学习代码生成
[自动] [ARXIV]	3min	school 强化学习激发过程推理能力提升机器人操控性能 03-17 机器人操控强化学习过程推理
[自动] [ARXIV]	4min	school 对抗性腐蚀与重尾噪声下的鲁棒高效线性情境赌博机 03-17 强化学习情境赌博机对抗性攻击
[自动] [ARXIV]	2min	school Code-A1：基于强化学习的代码与测试大模型对抗进化 03-17 Code-A1 强化学习代码生成
[自动] [ARXIV]	3min	school Visual-ERM：面向视觉等价性的奖励建模 03-17 Visual-ERM 视觉奖励模型 LVLM
[自动] [ARXIV]	3min	school PhysMoDPO：基于偏好优化的人形机器人物理逼真运动生成 03-17 人形机器人运动控制 DPO
[自动] [ARXIV]	3min	school 基于能量函数的语言模型特征匹配微调方法 03-16 LLM 微调能量函数
[自动] [ARXIV]	3min	school 可分离神经架构：统一预测与生成智能的基元 03-16 SNA 神经架构统一智能
[自动] [HACKER_NEWS]	2min	newspaper 基于不完美人体运动数据学习人形机器人网球技能 03-16 人形机器人运动学习强化学习
[自动] [ARXIV]	3min	school 探究推理模型作为裁判在非可验证LLM后训练中的表现 03-15 LLM RLHF 强化学习
[自动] [HACKER_NEWS]	1min	newspaper 利用不完美人体动作数据学习仿人机器人网球技能 03-15 仿人机器人运动控制强化学习
[自动] [HACKER_NEWS]	1min	newspaper 基于PPO的树搜索蒸馏优化语言模型 03-15 PPO 强化学习模型蒸馏
[自动] [HACKER_NEWS]	1min	newspaper 基于PPO的树搜索蒸馏技术优化语言模型 03-15 PPO 树搜索模型蒸馏
[自动] [HACKER_NEWS]	1min	newspaper 基于PPO的树搜索蒸馏优化语言模型 03-15 PPO 强化学习树搜索
[自动] [HACKER_NEWS]	1min	newspaper 基于PPO的树搜索蒸馏技术优化语言模型 03-15 PPO 强化学习树搜索
[自动] [ARXIV]	3min	school 探究非可验证LLM后训练中的推理模型评判机制 03-14 LLM RLHF 强化学习
[自动] [ARXIV]	3min	school 基于能量函数的语言模型特征级微调方法 03-14 LLM 微调 EBFT
[自动] [ARXIV]	3min	school 探究推理LLM作为非可验证后训练评估器的有效性 03-13 LLM-as-Judge RLHF 强化学习
[自动] [BLOGS_PODCASTS]	2min	mic 16个开源RL库的经验总结：保持Token流动 03-11 RLHF 强化学习开源库
[自动] [BLOGS_PODCASTS]	2min	mic 16个开源强化学习库的实践经验与启示 03-11 强化学习 RL 开源库
[自动] [BLOGS_PODCASTS]	2min	mic 基于16个开源RL库的Token流生成经验总结 03-11 RLHF 强化学习 LLM
[自动] [BLOGS_PODCASTS]	2min	mic 16个开源强化学习库的实践经验总结 03-11 强化学习 RL 开源库
[自动] [ARXIV]	4min	school Agentic Critical Training：基于批判性反馈的大模型推理能力提升机制 03-11 Agentic AI 强化学习推理能力
[自动] [BLOGS_PODCASTS]	2min	mic 从16个开源强化学习库中总结的Token流优化经验 03-10 强化学习 RLHF Token流
[自动] [ARXIV]	4min	school Agentic Critical Training：基于智能体批判机制的模型训练方法 03-10 ACT Agent 强化学习
[自动] [BLOGS_PODCASTS]	2min	mic 16个开源RL库经验总结：维持Token流的关键 03-10 RLHF 强化学习开源库
[自动] [BLOGS_PODCASTS]	2min	mic 基于16个开源RL库的Token流生成经验总结 03-10 RLHF 强化学习开源库
[自动] [BLOGS_PODCASTS]	3min	mic AlphaGo十周年：从游戏到生物科学加速AGI发展 03-10 AlphaGo AGI DeepMind
[自动] [BLOGS_PODCASTS]	2min	mic 16个开源强化学习库的经验总结与启示 03-10 强化学习 RL 开源库
[自动] [BLOGS_PODCASTS]	2min	mic 从16个开源强化学习库中总结的Token流优化经验 03-10 强化学习 RL Token流
[自动] [BLOGS_PODCASTS]	2min	mic AlphaGo十年：加速科学发现并铺就AGI之路 03-10 AlphaGo AGI 科学发现
[自动] [BLOGS_PODCASTS]	2min	mic LeRobot v0.5.0 发布：扩展数据、模型与仿真维度 03-10 LeRobot 机器人仿真
[自动] [BLOGS_PODCASTS]	2min	mic 16个开源强化学习库的实践经验与启示 03-10 强化学习 RL 开源库
[自动] [BLOGS_PODCASTS]	2min	mic LeRobot v0.5.0：全维度扩展与规模化升级 03-10 LeRobot 机器人端到端学习
[自动] [ARXIV]	4min	school 利用逻辑选项预训练提升深度强化学习 03-10 强化学习 RL H²RL
[自动] [ARXIV]	3min	school 利用逻辑选项预训练提升深度强化学习 03-09 强化学习 H^2RL 逻辑选项
[自动] [BLOGS_PODCASTS]	2min	mic OpenAI研究：推理模型思维链难控强化可监控安全性 03-07 OpenAI CoT 思维链
[自动] [BLOGS_PODCASTS]	2min	mic OpenAI研究：推理模型思维链难控强化可监控性 03-07 OpenAI CoT 思维链
[自动] [ARXIV]	3min	school TaxonRL：基于中间奖励强化学习的可解释细粒度视觉推理 03-06 TaxonRL 强化学习细粒度分类
[自动] [ARXIV]	3min	school TaxonRL：基于中间奖励的可解释细粒度视觉推理 03-05 TaxonRL 强化学习细粒度视觉推理
[自动] [ARXIV]	4min	school Valet：传统不完美信息卡牌游戏标准化测试平台 03-05 AI 博弈论不完美信息
[自动] [ARXIV]	3min	school Valet：传统不完美信息卡牌游戏标准化测试基准 03-04 Valet 不完美信息卡牌游戏
[自动] [ARXIV]	4min	school Conformal Policy Control：基于保形预测的策略控制方法 03-04 保形预测策略控制 RL
[自动] [ARXIV]	3min	school 测试时强化学习的工具验证方法 03-04 T3RL Test-Time RL 强化学习
[自动] [ARXIV]	3min	school Reasoning Core：符号模型预训练与后训练的程序化数据生成套件 03-04 符号推理数据生成 Reasoning Core
[自动] [ARXIV]	3min	school Conformal Policy Control：一种基于保形预测的策略控制方法 03-03 保形预测策略控制安全探索
[自动] [ARXIV]	4min	school 持续强化学习中的快速与元知识学习原则 03-03 强化学习持续学习元学习
[自动] [ARXIV]	4min	school CUDA Agent：面向高性能内核生成的大规模智能体强化学习 03-03 CUDA 强化学习智能体
[自动] [ARXIV]	4min	school CUDA Agent：面向高性能内核生成的大规模智能体强化学习框架 03-02 CUDA Agent 强化学习内核生成
[自动] [BLOGS_PODCASTS]	3min	mic Anthropic模型蒸馏与SWE-Bench失效机制分析直播 03-02 模型蒸馏 SWE-Bench 基准测试
[自动] [ARXIV]	3min	school SafeGen-LLM：增强机器人系统任务规划的安全泛化能力 03-02 SafeGen-LLM 机器人任务规划

2026年二月 100 篇

类型	阅读	条目
[自动] [ARXIV]	3min	school 无模型通用AI框架 02-27 通用人工智能强化学习无模型
[自动] [ARXIV]	3min	school 提升推理语言模型的参数化知识获取能力 02-27 LLM 推理模型参数化知识
[自动] [ARXIV]	4min	school GUI-Libra：动作感知监督与可验证强化学习的原生GUI智能体 02-27 GUI Agent 强化学习 RL
[自动] [ARXIV]	3min	school 提升推理语言模型的参数化知识访问能力 02-26 推理模型参数化知识强化学习
[自动] [BLOGS_PODCASTS]	4min	mic 在 Amazon SageMaker 上使用 veRL 与 Ray 训练 CodeFu-7B 模型 02-26 SageMaker veRL Ray
[自动] [ARXIV]	4min	school Squint：面向机器人虚实迁移的快速视觉强化学习 02-26 强化学习机器人 Sim-to-Real
[自动] [BLOGS_PODCASTS]	4min	mic 基于 veRL 在 SageMaker 与 Ray 上训练 CodeFu-7B 模型 02-25 veRL SageMaker Ray
[自动] [ARXIV]	4min	school 基于试错反思的具身大模型测试时规划 02-25 具身智能反思机制测试时规划
[自动] [ARXIV]	4min	school Squint：面向机器人具身迁移的快速视觉强化学习 02-25 强化学习机器人 Sim-to-Real
[自动] [BLOGS_PODCASTS]	4min	mic 使用 veRL 和 Ray 在 SageMaker 上训练 CodeFu-7B 模型 02-25 veRL Ray SageMaker
[自动] [BLOGS_PODCASTS]	5min	mic 基于veRL与Ray在SageMaker上训练CodeFu-7B模型 02-25 veRL Ray SageMaker
[自动] [BLOGS_PODCASTS]	5min	mic 在 Amazon SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 模型 02-25 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]	4min	mic 在 SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 02-25 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]	5min	mic 在 Amazon SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 模型 02-25 SageMaker veRL Ray
[自动] [ARXIV]	3min	school 部分可观测平均场博弈的循环结构策略梯度算法 02-25 平均场博弈 MFG 策略梯度
[自动] [BLOGS_PODCASTS]	5min	mic 在 Amazon SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 模型 02-24 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]	5min	mic 在 SageMaker 上利用 veRL 与 Ray 训练 CodeFu-7B 02-24 LLM SageMaker Ray
[自动] [ARXIV]	3min	school 部分可观测平均场博弈的循环结构策略梯度算法 02-24 平均场博弈部分可观测策略梯度
[自动] [BLOGS_PODCASTS]	5min	mic 使用veRL和Ray在SageMaker上训练CodeFu-7B模型 02-24 SageMaker veRL Ray
[自动] [ARXIV]	3min	school 用于软优势策略优化的平滑门函数 02-24 强化学习 GRPO SAPO
[自动] [ARXIV]	4min	school Soft Sequence Policy Optimization：连接GMPO与SAPO 02-24 SSPO LLM对齐强化学习
[自动] [ARXIV]	4min	school 强化快速权重结合下一序列预测模型 02-20 REFINE 强化学习快速权重
[自动] [ARXIV]	3min	school Calibrate-Then-Act：面向大模型智能体的成本感知探索 02-20 LLM Agents 成本感知 CTA框架
[自动] [ARXIV]	4min	school 强化快速权重与下一序列预测 02-19 REFINE 快速权重强化学习
[自动] [ARXIV]	3min	school Dex4D：任务无关点跟踪策略实现灵巧操作Sim-to-Real 02-19 灵巧操作 Sim-to-Real 机器人
[自动] [ARXIV]	3min	school 利用强化学习解决未知可行性的参数鲁棒避障问题 02-18 强化学习鲁棒性避障
[自动] [ARXIV]	4min	school Dex4D：任务无关点跟踪策略实现灵巧操作跨域迁移 02-18 灵巧操作 Sim-to-Real 强化学习
[自动] [ARXIV]	3min	school 基于结构化世界模型先验的冷启动个性化方案 02-18 冷启动个性化世界模型
[自动] [ARXIV]	3min	school 基于结构化世界模型的无训练先验用于冷启动个性化 02-17 个性化冷启动世界模型
[自动] [ARXIV]	4min	school 过程监督多智能体强化学习提升临床推理可靠性 02-17 多智能体强化学习临床推理
[自动] [HACKER_NEWS]	4min	newspaper 研究：自生成的智能体技能通常无效 02-17 AI Agent 智能体 LLM
[自动] [ARXIV]	5min	school 基于枢纽重采样的LLM强化学习深度密集探索 02-17 LLM 强化学习 RLHF
[自动] [ARXIV]	4min	school 基于大语言模型的端到端网络事件自主响应方法 02-17 LLM Agent 网络安全事件响应
[自动] [ARXIV]	4min	school 仿真筛选模块化策略：从人类视频学习有效行为 02-16 机器人强化学习模仿学习
[自动] [HACKER_NEWS]	4min	newspaper 研究：自生成的Agent技能通常无效 02-16 Agent LLM 自生成技能
[自动] [ARXIV]	4min	school 面向语言模型的在线上下文蒸馏方法 02-16 LLM 蒸馏上下文学习
[自动] [ARXIV]	5min	school CM2：基于清单奖励强化学习的多步智能体工具调用 02-16 强化学习 Agent 工具调用
[自动] [ARXIV]	3min	school CM2：基于清单奖励强化学习的多步智能体工具调用 02-15 CM2 强化学习 Agent
[自动] [ARXIV]	4min	school CM2：基于清单奖励强化学习的多步多轮智能体工具调用 02-14 智能体强化学习工具调用
[自动] [ARXIV]	6min	school CM2：基于清单奖励强化学习的多轮多步智能体工具调用 02-13 强化学习 Agent 工具调用
[自动] [BLOGS_PODCASTS]	3min	mic Gemini 3 Deep Think：强化推理模式以应对科研与工程挑战 02-13 Gemini 3 Deep Think 推理模型
[自动] [ARXIV]	3min	school 能力导向训练引发大模型对齐风险研究 02-13 AI对齐强化学习奖励黑客
[自动] [ARXIV]	4min	school 基于奖励外推的广义在线策略蒸馏算法 02-13 LLM 强化学习知识蒸馏
[自动] [ARXIV]	4min	school 基于归一化流的高效分层目标条件强化学习 02-13 强化学习分层强化学习归一化流
[自动] [ARXIV]	3min	school 基于归一化流的高效分层目标条件强化学习 02-12 强化学习归一化流分层强化学习
[自动] [ARXIV]	5min	school Agent World Model：面向智能体强化学习的无限合成环境 02-12 Agent World Model 强化学习合成环境
[自动] [ARXIV]	4min	school CODE-SHARP：基于分层奖励程序的技能持续演化框架 02-11 CODE-SHARP 强化学习 RL
[自动] [ARXIV]	3min	school Agent World Model: Infinity Synthetic Environments for 02-11 Agent World Model 强化学习
[自动] [ARXIV]	2min	school Anagent For Enhancing Scientific Table & Figure Analysi 02-11 Anagent 多智能体科学图表分析
[自动] [ARXIV]	4min	school InftyThink+: 基于强化学习的高效无限视野推理框架 02-09 强化学习推理框架思维链
[自动] [ARXIV]	4min	school DreamDojo：基于大规模人类视频的通用机器人世界模型 02-09 机器人世界模型 DreamDojo
[自动] [ARXIV]	3min	school 视觉语言模型能否通过交互学习直观物理 02-09 VLM 直觉物理强化学习
[自动] [ARXIV]	4min	school 好奇心即知识：基于主动推理的自一致学习与无遗憾优化 02-09 主动推理好奇心自一致学习
[自动] [ARXIV]	3min	school 面向运行时智能体记忆的查询感知预算层路由 02-08 Agent LLM 智能体
[自动] [ARXIV]	4min	school 好奇心即知识：基于主动推理的自一致学习与无悔优化 02-08 主动推理好奇心探索与利用
[自动] [HACKER_NEWS]	4min	newspaper 基于人类反馈的强化学习：原理与应用 02-07 RLHF 强化学习人类反馈
[自动] [ARXIV]	5min	school 面向运行时智能体记忆的查询感知预算层路由 02-07 Agent LLM Memory
[自动] [ARXIV]	3min	school 视觉语言模型能否通过交互学习直观物理 02-07 VLM 多模态具身智能
[自动] [ARXIV]	3min	school 好奇心即知识：基于主动推理的自一致学习与无悔优化 02-07 主动推理强化学习好奇心
[自动] [HACKER_NEWS]	4min	newspaper 基于人类反馈的强化学习原理与应用 02-07 RLHF 强化学习人类反馈
[自动] [HACKER_NEWS]	5min	newspaper 基于人类反馈的强化学习：原理与应用 02-07 RLHF 强化学习人类反馈
[自动] [HACKER_NEWS]	7min	newspaper 基于人类反馈的强化学习机制解析 02-07 RLHF 强化学习人类反馈
[自动] [ARXIV]	3min	school 视觉语言模型能否通过交互学习直觉物理 02-06 VLM 直觉物理强化学习
[自动] [ARXIV]	3min	school 好奇心即知识：基于主动推理的自一致学习与无遗憾优化 02-06 主动推理探索与利用自由能
[自动] [ARXIV]	4min	school 受限群组相对策略优化 02-06 GRPO 强化学习策略优化
[自动] [ARXIV]	4min	school 重新思考大模型强化学习中的信任区域机制 02-06 强化学习 LLM PPO
[自动] [ARXIV]	4min	school 强化注意力学习：通过奖励机制优化视觉注意力模型 02-06 强化学习多模态注意力机制
[自动] [ARXIV]	4min	school CRoSS：面向可扩展强化学习的持续机器人仿真套件 02-06 强化学习机器人仿真 Gazebo
[自动] [ARXIV]	5min	school 重新思考大模型强化学习中的信任区域 02-05 RLHF PPO 强化学习
[自动] [ARXIV]	4min	school 强化注意力学习：基于奖励反馈的注意力机制优化方法 02-05 强化学习注意力机制多模态
[自动] [ARXIV]	5min	school CRoSS：面向可扩展强化学习的持续机器人仿真套件 02-05 强化学习持续学习机器人仿真
[自动] [ARXIV]	4min	school 基于急停干预的鲁棒干预学习 02-05 干预学习自动驾驶鲁棒性
[自动] [ARXIV]	3min	school 基于急停干预的鲁棒干预学习 02-04 强化学习 RL 自动驾驶
[自动] [ARXIV]	4min	school 利用权重更新稀疏性的通信高效分布式强化学习 02-04 分布式训练强化学习通信优化
[自动] [HACKER_NEWS]	5min	newspaper Agent Skills：AI 智能体技能框架与训练方法 02-04 Agent 智能体技能框架
[自动] [ARXIV]	4min	school 通过文本反馈扩展强化学习的能力边界 02-04 强化学习 RLHF 文本反馈
[自动] [ARXIV]	3min	school 训练LLM采用分治推理提升测试时扩展性 02-04 LLM 推理强化学习
[自动] [ARXIV]	4min	school 基于流策略梯度的机器人控制方法 02-04 机器人控制流匹配策略梯度
[自动] [ARXIV]	4min	school RLAnything：构建完全动态强化学习系统环境与模型 02-04 RLAnything 强化学习 LLM
[自动] [ARXIV]	3min	school 训练LLM采用分治推理提升测试时扩展性 02-03 LLM 推理强化学习
[自动] [ARXIV]	4min	school 基于流策略梯度的机器人控制方法 02-03 机器人控制流匹配策略梯度
[自动] [ARXIV]	4min	school 基于文本反馈扩展强化学习的能力 02-03 强化学习 RLHF 文本反馈
[自动] [ARXIV]	4min	school RLAnything：完全动态强化学习系统构建环境、策略与奖励模型 02-03 强化学习 RL LLM
[自动] [ARXIV]	4min	school MemSkill：赋予自进化代理学习与演进记忆技能 02-03 MemSkill 智能体记忆机制
[自动] [BLOGS_PODCASTS]	2min	mic NVIDIA Cosmos策略：提升机器人控制能力 02-03 NVIDIA Cosmos 机器人
[自动] [BLOGS_PODCASTS]	2min	mic NVIDIA Cosmos 策略模型提升机器人高级控制能力 02-03 NVIDIA Cosmos 机器人
[自动] [ARXIV]	3min	school 研究揭示RLHF如何加剧大模型谄媚行为 02-03 RLHF 谄媚行为模型偏见
[自动] [ARXIV]	4min	school 智能体推理与工具使用的竞争：量化干扰与解调优 02-03 智能体强化学习工具使用
[自动] [ARXIV]	3min	school 大语言模型稀疏奖励子系统 02-03 LLM 稀疏奖励价值神经元
[自动] [HACKER_NEWS]	4min	newspaper AI 基准测试新进展：Game Arena 推进评估方法 02-03 AI 基准测试 Game Arena 模型评估
[自动] [HACKER_NEWS]	5min	newspaper 利用Game Arena平台推进AI基准测试 02-03 AI基准测试 Game Arena LLM评估
[自动] [HACKER_NEWS]	4min	newspaper 用Game Arena平台推进AI基准测试 02-02 AI基准测试 Game Arena LLM评估
[自动] [ARXIV]	4min	school 共享自治系统中信念与策略学习的端到端优化 02-02 共享自治 BRACE 贝叶斯推断
[自动] [BLOGS_PODCASTS]	3min	mic NVIDIA Cosmos 策略模型提升机器人高级控制能力 02-02 NVIDIA Cosmos 机器人
[自动] [ARXIV]	4min	school RN-D：基于正则化网络的离散分类演员与同策强化学习 02-02 强化学习 RL 连续控制
[自动] [ARXIV]	4min	school 探索面向智能体的推理奖励模型 02-02 Agentic RL Reward Model 推理奖励
[自动] [ARXIV]	4min	school DynaWeb：基于模型的强化学习网页智能体 02-02 DynaWeb Web Agent 强化学习
[自动] [ARXIV]	4min	school 探索面向智能体的推理奖励模型 02-01 Agent RLHF 奖励模型
[自动] [ARXIV]	5min	school DynaWeb：基于模型的强化学习网页智能体 02-01 DynaWeb Web Agent 强化学习
[自动] [BLOGS_PODCASTS]	3min	mic NVIDIA Cosmos 策略模型提升机器人控制能力 02-01 NVIDIA Cosmos 机器人

2026年一月 31 篇

类型	阅读	条目
[自动] [ARXIV]	5min	school 探索面向智能体的推理奖励模型 01-31 Agent 强化学习奖励模型
[自动] [BLOGS_PODCASTS]	2min	mic NVIDIA Cosmos策略：面向高级机器人控制的新方法 01-31 NVIDIA 机器人 Cosmos
[自动] [ARXIV]	5min	school DynaWeb：基于模型的强化学习网页智能体框架 01-31 DynaWeb Web Agent 强化学习
[自动] [BLOGS_PODCASTS]	2min	mic NVIDIA Cosmos 策略模型提升机器人控制精度 01-31 NVIDIA Cosmos 机器人
[自动] [ARXIV]	4min	school 探索面向智能体的推理奖励模型 01-30 Agent 强化学习推理奖励模型
[自动] [BLOGS_PODCASTS]	2min	mic NVIDIA Cosmos策略：提升机器人高级控制能力 01-30 NVIDIA 机器人 Cosmos
[自动] [HACKER_NEWS]	4min	newspaper Kimi K2.5 技术报告发布：强化学习与长上下文能力升级 01-30 Kimi K2.5 强化学习
[自动] [ARXIV]	4min	school DynaWeb：基于模型的强化学习网页智能体 01-30 DynaWeb Web Agent 强化学习
[自动] [ARXIV]	4min	school 面向文本检索器域适应的影响引导采样方法 01-30 文本检索域适应密集检索
[自动] [ARXIV]	3min	school 基于认知上下文学习构建大模型多智能体系统的信任机制 01-30 多智能体信任机制 ECL
[自动] [ARXIV]	3min	school 基于经验的试错算法超越语言模型 01-30 LLM SCOUT 探索与利用
[自动] [BLOGS_PODCASTS]	2min	mic NVIDIA Cosmos策略：提升机器人控制能力 01-29 NVIDIA 机器人 Cosmos
[自动] [BLOGS_PODCASTS]	3min	mic 🔥实战复盘：解锁GPT-OSS的智能体RL训练秘籍！ 01-28 强化学习智能体 Llama
[自动] [ARXIV]	4min	school 🔥动态环境下的对抗约束：Bandits算法如何应对未知挑战？ 01-28 Bandits 对抗约束动态环境
[自动] [BLOGS_PODCASTS]	2min	mic GPT-OSS实战复盘：解锁Agentic RL训练的突破性路径！🚀 01-28 GPT-OSS 强化学习 RL训练
[自动] [ARXIV]	4min	school 🚚🚀多目标强化学习！让卡车在高速车流中决策更高效、更智能！ 01-28 强化学习 PPO 多目标优化
[自动] [ARXIV]	4min	school 🚀复用FLOPs！RL突破性扩展：超离策略前缀如何解决硬难题？ 01-28 强化学习 RL LLM
[自动] [ARXIV]	4min	school 🔥模型自学革命！突破可学习性边界，推理能力暴涨！ 01-28 SOAR 强化学习推理能力
[自动] [ARXIV]	5min	school 🔥POPE：利用特权探索破解硬核难题！ 01-28 POPE 强化学习 LLM
[自动] [ARXIV]	4min	school 突破极限！AI如何教会自己推理？🤯 边缘学习性的惊天秘密！🚀 01-27 SOAR 强化学习元学习
[自动] [BLOGS_PODCASTS]	4min	mic 实战复盘：解锁GPT-OSS智能体强化训练！🚀 01-27 强化学习智能体模型蒸馏
[自动] [ARXIV]	4min	school 🚛🚦高速公路卡车决策新突破！多目标强化学习让战术决策更高效！ 01-27 强化学习 PPO 多目标优化
[自动] [ARXIV]	5min	school 🚀RL新突破！复用FLOPs，硬难题上通过离线前缀扩展 01-27 PrefixRL 强化学习 LLM
[自动] [ARXIV]	4min	school 🔥POPE：用特权探索让AI学会解决复杂难题！ 01-27 强化学习 LLM 推理能力
[自动] [BLOGS_PODCASTS]	4min	mic 揭秘Agentic RL训练！GPT-OSS实战回顾，核心干货🔥 01-27 Agentic RL 强化学习 GPT-OSS
[自动] [HACKER_NEWS]	3min	newspaper Kimi K2.5震撼开源！视觉SOTA Agent模型，性能炸裂🔥 01-27 Kimi K2.5 多模态
[自动] [BLOGS_PODCASTS]	3min	mic 🚀GPT-OSS智能体RL训练解密！从0到1实战复盘🔥 01-27 强化学习 Agent GPT-OSS
[自动] [BLOGS_PODCASTS]	3min	mic Unlocking Agentic RL Training for GPT-OSS: A Practical Retrospective 01-27 Agentic RL 强化学习 GPT-OSS
[自动] [ARXIV]	7min	school 高效定理证明新突破！结构化提示实现少样本学习 🚀 01-25 定理证明 Lean DeepSeek-Prover
[自动] [ARXIV]	4min	school 测试时也能发现新规律？🤯AI解锁动态学习能力！ 01-25 TTT-Discover 测试时训练强化学习
[自动] [ARXIV]	5min	school 🚀沙盒机制唤醒LLM智能体通用能力！AI Agent突破性架构！ 01-25 LLM AI Agent 沙盒机制