terminal

AI Stack

rss_feed
SYS_STABLE
目录

强化学习

条目:131
2026年二月 100 篇
类型阅读条目
[自动] [ARXIV]
4minschool 无模型通用AI框架
02-27 通用人工智能 强化学习 无模型
[自动] [ARXIV]
4minschool 提升推理语言模型的参数化知识获取能力
02-27 LLM 推理模型 参数化知识
[自动] [ARXIV]
5minschool GUI-Libra:动作感知监督与可验证强化学习的原生GUI智能体
02-27 GUI Agent 强化学习 RL
[自动] [ARXIV]
4minschool 提升推理语言模型的参数化知识访问能力
02-26 推理模型 参数化知识 强化学习
[自动] [BLOGS_PODCASTS]
4minmic 在 Amazon SageMaker 上使用 veRL 与 Ray 训练 CodeFu-7B 模型
02-26 SageMaker veRL Ray
[自动] [ARXIV]
4minschool Squint:面向机器人虚实迁移的快速视觉强化学习
02-26 强化学习 机器人 Sim-to-Real
[自动] [BLOGS_PODCASTS]
5minmic 基于 veRL 在 SageMaker 与 Ray 上训练 CodeFu-7B 模型
02-25 veRL SageMaker Ray
[自动] [ARXIV]
4minschool 基于试错反思的具身大模型测试时规划
02-25 具身智能 反思机制 测试时规划
[自动] [ARXIV]
4minschool Squint:面向机器人具身迁移的快速视觉强化学习
02-25 强化学习 机器人 Sim-to-Real
[自动] [BLOGS_PODCASTS]
5minmic 使用 veRL 和 Ray 在 SageMaker 上训练 CodeFu-7B 模型
02-25 veRL Ray SageMaker
[自动] [BLOGS_PODCASTS]
5minmic 基于veRL与Ray在SageMaker上训练CodeFu-7B模型
02-25 veRL Ray SageMaker
[自动] [BLOGS_PODCASTS]
5minmic 在 Amazon SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 模型
02-25 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]
5minmic 在 SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B
02-25 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]
5minmic 在 Amazon SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 模型
02-25 SageMaker veRL Ray
[自动] [ARXIV]
4minschool 部分可观测平均场博弈的循环结构策略梯度算法
02-25 平均场博弈 MFG 策略梯度
[自动] [BLOGS_PODCASTS]
5minmic 在 Amazon SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 模型
02-24 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]
5minmic 在 SageMaker 上利用 veRL 与 Ray 训练 CodeFu-7B
02-24 LLM SageMaker Ray
[自动] [ARXIV]
4minschool 部分可观测平均场博弈的循环结构策略梯度算法
02-24 平均场博弈 部分可观测 策略梯度
[自动] [BLOGS_PODCASTS]
6minmic 使用veRL和Ray在SageMaker上训练CodeFu-7B模型
02-24 SageMaker veRL Ray
[自动] [ARXIV]
4minschool 用于软优势策略优化的平滑门函数
02-24 强化学习 GRPO SAPO
[自动] [ARXIV]
5minschool Soft Sequence Policy Optimization:连接GMPO与SAPO
02-24 SSPO LLM对齐 强化学习
[自动] [ARXIV]
4minschool 强化快速权重结合下一序列预测模型
02-20 REFINE 强化学习 快速权重
[自动] [ARXIV]
5minschool Calibrate-Then-Act:面向大模型智能体的成本感知探索
02-20 LLM Agents 成本感知 CTA框架
[自动] [ARXIV]
4minschool 强化快速权重与下一序列预测
02-19 REFINE 快速权重 强化学习
[自动] [ARXIV]
4minschool Dex4D:任务无关点跟踪策略实现灵巧操作Sim-to-Real
02-19 灵巧操作 Sim-to-Real 机器人
[自动] [ARXIV]
3minschool 利用强化学习解决未知可行性的参数鲁棒避障问题
02-18 强化学习 鲁棒性 避障
[自动] [ARXIV]
4minschool Dex4D:任务无关点跟踪策略实现灵巧操作跨域迁移
02-18 灵巧操作 Sim-to-Real 强化学习
[自动] [ARXIV]
3minschool 基于结构化世界模型先验的冷启动个性化方案
02-18 冷启动 个性化 世界模型
[自动] [ARXIV]
3minschool 基于结构化世界模型的无训练先验用于冷启动个性化
02-17 个性化 冷启动 世界模型
[自动] [ARXIV]
4minschool 过程监督多智能体强化学习提升临床推理可靠性
02-17 多智能体 强化学习 临床推理
[自动] [HACKER_NEWS]
4minnewspaper 研究:自生成的智能体技能通常无效
02-17 AI Agent 智能体 LLM
[自动] [ARXIV]
5minschool 基于枢纽重采样的LLM强化学习深度密集探索
02-17 LLM 强化学习 RLHF
[自动] [ARXIV]
4minschool 基于大语言模型的端到端网络事件自主响应方法
02-17 LLM Agent 网络安全 事件响应
[自动] [ARXIV]
4minschool 仿真筛选模块化策略:从人类视频学习有效行为
02-16 机器人 强化学习 模仿学习
[自动] [HACKER_NEWS]
4minnewspaper 研究:自生成的Agent技能通常无效
02-16 Agent LLM 自生成技能
[自动] [ARXIV]
4minschool 面向语言模型的在线上下文蒸馏方法
02-16 LLM 蒸馏 上下文学习
[自动] [ARXIV]
5minschool CM2:基于清单奖励强化学习的多步智能体工具调用
02-16 强化学习 Agent 工具调用
[自动] [ARXIV]
4minschool CM2:基于清单奖励强化学习的多步智能体工具调用
02-15 CM2 强化学习 Agent
[自动] [ARXIV]
5minschool CM2:基于清单奖励强化学习的多步多轮智能体工具调用
02-14 智能体 强化学习 工具调用
[自动] [ARXIV]
6minschool CM2:基于清单奖励强化学习的多轮多步智能体工具调用
02-13 强化学习 Agent 工具调用
[自动] [BLOGS_PODCASTS]
3minmic Gemini 3 Deep Think:强化推理模式以应对科研与工程挑战
02-13 Gemini 3 Deep Think 推理模型
[自动] [ARXIV]
3minschool 能力导向训练引发大模型对齐风险研究
02-13 AI对齐 强化学习 奖励黑客
[自动] [ARXIV]
4minschool 基于奖励外推的广义在线策略蒸馏算法
02-13 LLM 强化学习 知识蒸馏
[自动] [ARXIV]
4minschool 基于归一化流的高效分层目标条件强化学习
02-13 强化学习 分层强化学习 归一化流
[自动] [ARXIV]
3minschool 基于归一化流的高效分层目标条件强化学习
02-12 强化学习 归一化流 分层强化学习
[自动] [ARXIV]
5minschool Agent World Model:面向智能体强化学习的无限合成环境
02-12 Agent World Model 强化学习 合成环境
[自动] [ARXIV]
4minschool CODE-SHARP:基于分层奖励程序的技能持续演化框架
02-11 CODE-SHARP 强化学习 RL
[自动] [ARXIV]
3minschool Agent World Model: Infinity Synthetic Environments for
02-11 Agent World Model 强化学习
[自动] [ARXIV]
2minschool Anagent For Enhancing Scientific Table & Figure Analysi
02-11 Anagent 多智能体 科学图表分析
[自动] [ARXIV]
4minschool InftyThink+: 基于强化学习的高效无限视野推理框架
02-09 强化学习 推理框架 思维链
[自动] [ARXIV]
4minschool DreamDojo:基于大规模人类视频的通用机器人世界模型
02-09 机器人 世界模型 DreamDojo
[自动] [ARXIV]
3minschool 视觉语言模型能否通过交互学习直观物理
02-09 VLM 直觉物理 强化学习
[自动] [ARXIV]
4minschool 好奇心即知识:基于主动推理的自一致学习与无遗憾优化
02-09 主动推理 好奇心 自一致学习
[自动] [ARXIV]
3minschool 面向运行时智能体记忆的查询感知预算层路由
02-08 Agent LLM 智能体
[自动] [ARXIV]
4minschool 好奇心即知识:基于主动推理的自一致学习与无悔优化
02-08 主动推理 好奇心 探索与利用
[自动] [HACKER_NEWS]
4minnewspaper 基于人类反馈的强化学习:原理与应用
02-07 RLHF 强化学习 人类反馈
[自动] [ARXIV]
5minschool 面向运行时智能体记忆的查询感知预算层路由
02-07 Agent LLM Memory
[自动] [ARXIV]
3minschool 视觉语言模型能否通过交互学习直观物理
02-07 VLM 多模态 具身智能
[自动] [ARXIV]
3minschool 好奇心即知识:基于主动推理的自一致学习与无悔优化
02-07 主动推理 强化学习 好奇心
[自动] [HACKER_NEWS]
5minnewspaper 基于人类反馈的强化学习原理与应用
02-07 RLHF 强化学习 人类反馈
[自动] [HACKER_NEWS]
5minnewspaper 基于人类反馈的强化学习:原理与应用
02-07 RLHF 强化学习 人类反馈
[自动] [HACKER_NEWS]
7minnewspaper 基于人类反馈的强化学习机制解析
02-07 RLHF 强化学习 人类反馈
[自动] [ARXIV]
3minschool 视觉语言模型能否通过交互学习直觉物理
02-06 VLM 直觉物理 强化学习
[自动] [ARXIV]
3minschool 好奇心即知识:基于主动推理的自一致学习与无遗憾优化
02-06 主动推理 探索与利用 自由能
[自动] [ARXIV]
4minschool 受限群组相对策略优化
02-06 GRPO 强化学习 策略优化
[自动] [ARXIV]
4minschool 重新思考大模型强化学习中的信任区域机制
02-06 强化学习 LLM PPO
[自动] [ARXIV]
4minschool 强化注意力学习:通过奖励机制优化视觉注意力模型
02-06 强化学习 多模态 注意力机制
[自动] [ARXIV]
4minschool CRoSS:面向可扩展强化学习的持续机器人仿真套件
02-06 强化学习 机器人仿真 Gazebo
[自动] [ARXIV]
5minschool 重新思考大模型强化学习中的信任区域
02-05 RLHF PPO 强化学习
[自动] [ARXIV]
4minschool 强化注意力学习:基于奖励反馈的注意力机制优化方法
02-05 强化学习 注意力机制 多模态
[自动] [ARXIV]
5minschool CRoSS:面向可扩展强化学习的持续机器人仿真套件
02-05 强化学习 持续学习 机器人仿真
[自动] [ARXIV]
4minschool 基于急停干预的鲁棒干预学习
02-05 干预学习 自动驾驶 鲁棒性
[自动] [ARXIV]
3minschool 基于急停干预的鲁棒干预学习
02-04 强化学习 RL 自动驾驶
[自动] [ARXIV]
4minschool 利用权重更新稀疏性的通信高效分布式强化学习
02-04 分布式训练 强化学习 通信优化
[自动] [HACKER_NEWS]
5minnewspaper Agent Skills:AI 智能体技能框架与训练方法
02-04 Agent 智能体 技能框架
[自动] [ARXIV]
4minschool 通过文本反馈扩展强化学习的能力边界
02-04 强化学习 RLHF 文本反馈
[自动] [ARXIV]
3minschool 训练LLM采用分治推理提升测试时扩展性
02-04 LLM 推理 强化学习
[自动] [ARXIV]
5minschool 基于流策略梯度的机器人控制方法
02-04 机器人控制 流匹配 策略梯度
[自动] [ARXIV]
4minschool RLAnything:构建完全动态强化学习系统环境与模型
02-04 RLAnything 强化学习 LLM
[自动] [ARXIV]
3minschool 训练LLM采用分治推理提升测试时扩展性
02-03 LLM 推理 强化学习
[自动] [ARXIV]
4minschool 基于流策略梯度的机器人控制方法
02-03 机器人控制 流匹配 策略梯度
[自动] [ARXIV]
4minschool 基于文本反馈扩展强化学习的能力
02-03 强化学习 RLHF 文本反馈
[自动] [ARXIV]
4minschool RLAnything:完全动态强化学习系统构建环境、策略与奖励模型
02-03 强化学习 RL LLM
[自动] [ARXIV]
4minschool MemSkill:赋予自进化代理学习与演进记忆技能
02-03 MemSkill 智能体 记忆机制
[自动] [BLOGS_PODCASTS]
2minmic NVIDIA Cosmos策略:提升机器人控制能力
02-03 NVIDIA Cosmos 机器人
[自动] [BLOGS_PODCASTS]
2minmic NVIDIA Cosmos 策略模型提升机器人高级控制能力
02-03 NVIDIA Cosmos 机器人
[自动] [ARXIV]
3minschool 研究揭示RLHF如何加剧大模型谄媚行为
02-03 RLHF 谄媚行为 模型偏见
[自动] [ARXIV]
4minschool 智能体推理与工具使用的竞争:量化干扰与解调优
02-03 智能体 强化学习 工具使用
[自动] [ARXIV]
3minschool 大语言模型稀疏奖励子系统
02-03 LLM 稀疏奖励 价值神经元
[自动] [HACKER_NEWS]
4minnewspaper AI 基准测试新进展:Game Arena 推进评估方法
02-03 AI 基准测试 Game Arena 模型评估
[自动] [HACKER_NEWS]
5minnewspaper 利用Game Arena平台推进AI基准测试
02-03 AI基准测试 Game Arena LLM评估
[自动] [HACKER_NEWS]
4minnewspaper 用Game Arena平台推进AI基准测试
02-02 AI基准测试 Game Arena LLM评估
[自动] [ARXIV]
4minschool 共享自治系统中信念与策略学习的端到端优化
02-02 共享自治 BRACE 贝叶斯推断
[自动] [BLOGS_PODCASTS]
3minmic NVIDIA Cosmos 策略模型提升机器人高级控制能力
02-02 NVIDIA Cosmos 机器人
[自动] [ARXIV]
4minschool RN-D:基于正则化网络的离散分类演员与同策强化学习
02-02 强化学习 RL 连续控制
[自动] [ARXIV]
4minschool 探索面向智能体的推理奖励模型
02-02 Agentic RL Reward Model 推理奖励
[自动] [ARXIV]
5minschool DynaWeb:基于模型的强化学习网页智能体
02-02 DynaWeb Web Agent 强化学习
[自动] [ARXIV]
4minschool 探索面向智能体的推理奖励模型
02-01 Agent RLHF 奖励模型
[自动] [ARXIV]
5minschool DynaWeb:基于模型的强化学习网页智能体
02-01 DynaWeb Web Agent 强化学习
[自动] [BLOGS_PODCASTS]
3minmic NVIDIA Cosmos 策略模型提升机器人控制能力
02-01 NVIDIA Cosmos 机器人
2026年一月 31 篇
类型阅读条目
[自动] [ARXIV]
5minschool 探索面向智能体的推理奖励模型
01-31 Agent 强化学习 奖励模型
[自动] [BLOGS_PODCASTS]
2minmic NVIDIA Cosmos策略:面向高级机器人控制的新方法
01-31 NVIDIA 机器人 Cosmos
[自动] [ARXIV]
5minschool DynaWeb:基于模型的强化学习网页智能体框架
01-31 DynaWeb Web Agent 强化学习
[自动] [BLOGS_PODCASTS]
2minmic NVIDIA Cosmos 策略模型提升机器人控制精度
01-31 NVIDIA Cosmos 机器人
[自动] [ARXIV]
5minschool 探索面向智能体的推理奖励模型
01-30 Agent 强化学习 推理奖励模型
[自动] [BLOGS_PODCASTS]
2minmic NVIDIA Cosmos策略:提升机器人高级控制能力
01-30 NVIDIA 机器人 Cosmos
[自动] [HACKER_NEWS]
4minnewspaper Kimi K2.5 技术报告发布:强化学习与长上下文能力升级
01-30 Kimi K2.5 强化学习
[自动] [ARXIV]
5minschool DynaWeb:基于模型的强化学习网页智能体
01-30 DynaWeb Web Agent 强化学习
[自动] [ARXIV]
4minschool 面向文本检索器域适应的影响引导采样方法
01-30 文本检索 域适应 密集检索
[自动] [ARXIV]
4minschool 基于认知上下文学习构建大模型多智能体系统的信任机制
01-30 多智能体 信任机制 ECL
[自动] [ARXIV]
3minschool 基于经验的试错算法超越语言模型
01-30 LLM SCOUT 探索与利用
[自动] [BLOGS_PODCASTS]
2minmic NVIDIA Cosmos策略:提升机器人控制能力
01-29 NVIDIA 机器人 Cosmos
[自动] [BLOGS_PODCASTS]
3minmic 🔥实战复盘:解锁GPT-OSS的智能体RL训练秘籍!
01-28 强化学习 智能体 Llama
[自动] [ARXIV]
4minschool 🔥动态环境下的对抗约束:Bandits算法如何应对未知挑战?
01-28 Bandits 对抗约束 动态环境
[自动] [BLOGS_PODCASTS]
2minmic GPT-OSS实战复盘:解锁Agentic RL训练的突破性路径!🚀
01-28 GPT-OSS 强化学习 RL训练
[自动] [ARXIV]
4minschool 🚚🚀多目标强化学习!让卡车在高速车流中决策更高效、更智能!
01-28 强化学习 PPO 多目标优化
[自动] [ARXIV]
4minschool 🚀复用FLOPs!RL突破性扩展:超离策略前缀如何解决硬难题?
01-28 强化学习 RL LLM
[自动] [ARXIV]
4minschool 🔥模型自学革命!突破可学习性边界,推理能力暴涨!
01-28 SOAR 强化学习 推理能力
[自动] [ARXIV]
5minschool 🔥POPE:利用特权探索破解硬核难题!
01-28 POPE 强化学习 LLM
[自动] [ARXIV]
4minschool 突破极限!AI如何教会自己推理?🤯 边缘学习性的惊天秘密!🚀
01-27 SOAR 强化学习 元学习
[自动] [BLOGS_PODCASTS]
4minmic 实战复盘:解锁GPT-OSS智能体强化训练!🚀
01-27 强化学习 智能体 模型蒸馏
[自动] [ARXIV]
4minschool 🚛🚦高速公路卡车决策新突破!多目标强化学习让战术决策更高效!
01-27 强化学习 PPO 多目标优化
[自动] [ARXIV]
5minschool 🚀RL新突破!复用FLOPs,硬难题上通过离线前缀扩展
01-27 PrefixRL 强化学习 LLM
[自动] [ARXIV]
4minschool 🔥POPE:用特权探索让AI学会解决复杂难题!
01-27 强化学习 LLM 推理能力
[自动] [BLOGS_PODCASTS]
4minmic 揭秘Agentic RL训练!GPT-OSS实战回顾,核心干货🔥
01-27 Agentic RL 强化学习 GPT-OSS
[自动] [HACKER_NEWS]
3minnewspaper Kimi K2.5震撼开源!视觉SOTA Agent模型,性能炸裂🔥
01-27 Kimi K2.5 多模态
[自动] [BLOGS_PODCASTS]
3minmic 🚀GPT-OSS智能体RL训练解密!从0到1实战复盘🔥
01-27 强化学习 Agent GPT-OSS
[自动] [BLOGS_PODCASTS]
3minmic Unlocking Agentic RL Training for GPT-OSS: A Practical Retrospective
01-27 Agentic RL 强化学习 GPT-OSS
[自动] [ARXIV]
7minschool 高效定理证明新突破!结构化提示实现少样本学习 🚀
01-25 定理证明 Lean DeepSeek-Prover
[自动] [ARXIV]
4minschool 测试时也能发现新规律?🤯AI解锁动态学习能力!
01-25 TTT-Discover 测试时训练 强化学习
[自动] [ARXIV]
5minschool 🚀沙盒机制唤醒LLM智能体通用能力!AI Agent突破性架构!
01-25 LLM AI Agent 沙盒机制