目录
强化学习
条目:131
2026年二月
100 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
无模型通用AI框架 02-27
通用人工智能
强化学习
无模型 |
[自动]
[ARXIV] | 4min | school
提升推理语言模型的参数化知识获取能力 02-27
LLM
推理模型
参数化知识 |
[自动]
[ARXIV] | 5min | school
GUI-Libra:动作感知监督与可验证强化学习的原生GUI智能体 02-27
GUI Agent
强化学习
RL |
[自动]
[ARXIV] | 4min | school
提升推理语言模型的参数化知识访问能力 02-26
推理模型
参数化知识
强化学习 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
在 Amazon SageMaker 上使用 veRL 与 Ray 训练 CodeFu-7B 模型 02-26
SageMaker
veRL
Ray |
[自动]
[ARXIV] | 4min | school
Squint:面向机器人虚实迁移的快速视觉强化学习 02-26
强化学习
机器人
Sim-to-Real |
[自动]
[BLOGS_PODCASTS] | 5min | mic
基于 veRL 在 SageMaker 与 Ray 上训练 CodeFu-7B 模型 02-25
veRL
SageMaker
Ray |
[自动]
[ARXIV] | 4min | school
基于试错反思的具身大模型测试时规划 02-25
具身智能
反思机制
测试时规划 |
[自动]
[ARXIV] | 4min | school
Squint:面向机器人具身迁移的快速视觉强化学习 02-25
强化学习
机器人
Sim-to-Real |
[自动]
[BLOGS_PODCASTS] | 5min | mic
使用 veRL 和 Ray 在 SageMaker 上训练 CodeFu-7B 模型 02-25
veRL
Ray
SageMaker |
[自动]
[BLOGS_PODCASTS] | 5min | mic
基于veRL与Ray在SageMaker上训练CodeFu-7B模型 02-25
veRL
Ray
SageMaker |
[自动]
[BLOGS_PODCASTS] | 5min | mic
在 Amazon SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 模型 02-25
SageMaker
veRL
Ray |
[自动]
[BLOGS_PODCASTS] | 5min | mic
在 SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 02-25
SageMaker
veRL
Ray |
[自动]
[BLOGS_PODCASTS] | 5min | mic
在 Amazon SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 模型 02-25
SageMaker
veRL
Ray |
[自动]
[ARXIV] | 4min | school
部分可观测平均场博弈的循环结构策略梯度算法 02-25
平均场博弈
MFG
策略梯度 |
[自动]
[BLOGS_PODCASTS] | 5min | mic
在 Amazon SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 模型 02-24
SageMaker
veRL
Ray |
[自动]
[BLOGS_PODCASTS] | 5min | mic
在 SageMaker 上利用 veRL 与 Ray 训练 CodeFu-7B 02-24
LLM
SageMaker
Ray |
[自动]
[ARXIV] | 4min | school
部分可观测平均场博弈的循环结构策略梯度算法 02-24
平均场博弈
部分可观测
策略梯度 |
[自动]
[BLOGS_PODCASTS] | 6min | mic
使用veRL和Ray在SageMaker上训练CodeFu-7B模型 02-24
SageMaker
veRL
Ray |
[自动]
[ARXIV] | 4min | school
用于软优势策略优化的平滑门函数 02-24
强化学习
GRPO
SAPO |
[自动]
[ARXIV] | 5min | school
Soft Sequence Policy Optimization:连接GMPO与SAPO 02-24
SSPO
LLM对齐
强化学习 |
[自动]
[ARXIV] | 4min | school
强化快速权重结合下一序列预测模型 02-20
REFINE
强化学习
快速权重 |
[自动]
[ARXIV] | 5min | school
Calibrate-Then-Act:面向大模型智能体的成本感知探索 02-20
LLM Agents
成本感知
CTA框架 |
[自动]
[ARXIV] | 4min | school
强化快速权重与下一序列预测 02-19
REFINE
快速权重
强化学习 |
[自动]
[ARXIV] | 4min | school
Dex4D:任务无关点跟踪策略实现灵巧操作Sim-to-Real 02-19
灵巧操作
Sim-to-Real
机器人 |
[自动]
[ARXIV] | 3min | school
利用强化学习解决未知可行性的参数鲁棒避障问题 02-18
强化学习
鲁棒性
避障 |
[自动]
[ARXIV] | 4min | school
Dex4D:任务无关点跟踪策略实现灵巧操作跨域迁移 02-18
灵巧操作
Sim-to-Real
强化学习 |
[自动]
[ARXIV] | 3min | school
基于结构化世界模型先验的冷启动个性化方案 02-18
冷启动
个性化
世界模型 |
[自动]
[ARXIV] | 3min | school
基于结构化世界模型的无训练先验用于冷启动个性化 02-17
个性化
冷启动
世界模型 |
[自动]
[ARXIV] | 4min | school
过程监督多智能体强化学习提升临床推理可靠性 02-17
多智能体
强化学习
临床推理 |
[自动]
[HACKER_NEWS] | 4min | newspaper
研究:自生成的智能体技能通常无效 02-17
AI Agent
智能体
LLM |
[自动]
[ARXIV] | 5min | school
基于枢纽重采样的LLM强化学习深度密集探索 02-17
LLM
强化学习
RLHF |
[自动]
[ARXIV] | 4min | school
基于大语言模型的端到端网络事件自主响应方法 02-17
LLM Agent
网络安全
事件响应 |
[自动]
[ARXIV] | 4min | school
仿真筛选模块化策略:从人类视频学习有效行为 02-16
机器人
强化学习
模仿学习 |
[自动]
[HACKER_NEWS] | 4min | newspaper
研究:自生成的Agent技能通常无效 02-16
Agent
LLM
自生成技能 |
[自动]
[ARXIV] | 4min | school
面向语言模型的在线上下文蒸馏方法 02-16
LLM
蒸馏
上下文学习 |
[自动]
[ARXIV] | 5min | school
CM2:基于清单奖励强化学习的多步智能体工具调用 02-16
强化学习
Agent
工具调用 |
[自动]
[ARXIV] | 4min | school
CM2:基于清单奖励强化学习的多步智能体工具调用 02-15
CM2
强化学习
Agent |
[自动]
[ARXIV] | 5min | school
CM2:基于清单奖励强化学习的多步多轮智能体工具调用 02-14
智能体
强化学习
工具调用 |
[自动]
[ARXIV] | 6min | school
CM2:基于清单奖励强化学习的多轮多步智能体工具调用 02-13
强化学习
Agent
工具调用 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Gemini 3 Deep Think:强化推理模式以应对科研与工程挑战 02-13
Gemini 3
Deep Think
推理模型 |
[自动]
[ARXIV] | 3min | school
能力导向训练引发大模型对齐风险研究 02-13
AI对齐
强化学习
奖励黑客 |
[自动]
[ARXIV] | 4min | school
基于奖励外推的广义在线策略蒸馏算法 02-13
LLM
强化学习
知识蒸馏 |
[自动]
[ARXIV] | 4min | school
基于归一化流的高效分层目标条件强化学习 02-13
强化学习
分层强化学习
归一化流 |
[自动]
[ARXIV] | 3min | school
基于归一化流的高效分层目标条件强化学习 02-12
强化学习
归一化流
分层强化学习 |
[自动]
[ARXIV] | 5min | school
Agent World Model:面向智能体强化学习的无限合成环境 02-12
Agent World Model
强化学习
合成环境 |
[自动]
[ARXIV] | 4min | school
CODE-SHARP:基于分层奖励程序的技能持续演化框架 02-11
CODE-SHARP
强化学习
RL |
[自动]
[ARXIV] | 3min | school
Agent World Model: Infinity Synthetic Environments for 02-11
Agent
World Model
强化学习 |
[自动]
[ARXIV] | 2min | school
Anagent For Enhancing Scientific Table & Figure Analysi 02-11
Anagent
多智能体
科学图表分析 |
[自动]
[ARXIV] | 4min | school
InftyThink+: 基于强化学习的高效无限视野推理框架 02-09
强化学习
推理框架
思维链 |
[自动]
[ARXIV] | 4min | school
DreamDojo:基于大规模人类视频的通用机器人世界模型 02-09
机器人
世界模型
DreamDojo |
[自动]
[ARXIV] | 3min | school
视觉语言模型能否通过交互学习直观物理 02-09
VLM
直觉物理
强化学习 |
[自动]
[ARXIV] | 4min | school
好奇心即知识:基于主动推理的自一致学习与无遗憾优化 02-09
主动推理
好奇心
自一致学习 |
[自动]
[ARXIV] | 3min | school
面向运行时智能体记忆的查询感知预算层路由 02-08
Agent
LLM
智能体 |
[自动]
[ARXIV] | 4min | school
好奇心即知识:基于主动推理的自一致学习与无悔优化 02-08
主动推理
好奇心
探索与利用 |
[自动]
[HACKER_NEWS] | 4min | newspaper
基于人类反馈的强化学习:原理与应用 02-07
RLHF
强化学习
人类反馈 |
[自动]
[ARXIV] | 5min | school
面向运行时智能体记忆的查询感知预算层路由 02-07
Agent
LLM
Memory |
[自动]
[ARXIV] | 3min | school
视觉语言模型能否通过交互学习直观物理 02-07
VLM
多模态
具身智能 |
[自动]
[ARXIV] | 3min | school
好奇心即知识:基于主动推理的自一致学习与无悔优化 02-07
主动推理
强化学习
好奇心 |
[自动]
[HACKER_NEWS] | 5min | newspaper
基于人类反馈的强化学习原理与应用 02-07
RLHF
强化学习
人类反馈 |
[自动]
[HACKER_NEWS] | 5min | newspaper
基于人类反馈的强化学习:原理与应用 02-07
RLHF
强化学习
人类反馈 |
[自动]
[HACKER_NEWS] | 7min | newspaper
基于人类反馈的强化学习机制解析 02-07
RLHF
强化学习
人类反馈 |
[自动]
[ARXIV] | 3min | school
视觉语言模型能否通过交互学习直觉物理 02-06
VLM
直觉物理
强化学习 |
[自动]
[ARXIV] | 3min | school
好奇心即知识:基于主动推理的自一致学习与无遗憾优化 02-06
主动推理
探索与利用
自由能 |
[自动]
[ARXIV] | 4min | school
受限群组相对策略优化 02-06
GRPO
强化学习
策略优化 |
[自动]
[ARXIV] | 4min | school
重新思考大模型强化学习中的信任区域机制 02-06
强化学习
LLM
PPO |
[自动]
[ARXIV] | 4min | school
强化注意力学习:通过奖励机制优化视觉注意力模型 02-06
强化学习
多模态
注意力机制 |
[自动]
[ARXIV] | 4min | school
CRoSS:面向可扩展强化学习的持续机器人仿真套件 02-06
强化学习
机器人仿真
Gazebo |
[自动]
[ARXIV] | 5min | school
重新思考大模型强化学习中的信任区域 02-05
RLHF
PPO
强化学习 |
[自动]
[ARXIV] | 4min | school
强化注意力学习:基于奖励反馈的注意力机制优化方法 02-05
强化学习
注意力机制
多模态 |
[自动]
[ARXIV] | 5min | school
CRoSS:面向可扩展强化学习的持续机器人仿真套件 02-05
强化学习
持续学习
机器人仿真 |
[自动]
[ARXIV] | 4min | school
基于急停干预的鲁棒干预学习 02-05
干预学习
自动驾驶
鲁棒性 |
[自动]
[ARXIV] | 3min | school
基于急停干预的鲁棒干预学习 02-04
强化学习
RL
自动驾驶 |
[自动]
[ARXIV] | 4min | school
利用权重更新稀疏性的通信高效分布式强化学习 02-04
分布式训练
强化学习
通信优化 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Agent Skills:AI 智能体技能框架与训练方法 02-04
Agent
智能体
技能框架 |
[自动]
[ARXIV] | 4min | school
通过文本反馈扩展强化学习的能力边界 02-04
强化学习
RLHF
文本反馈 |
[自动]
[ARXIV] | 3min | school
训练LLM采用分治推理提升测试时扩展性 02-04
LLM
推理
强化学习 |
[自动]
[ARXIV] | 5min | school
基于流策略梯度的机器人控制方法 02-04
机器人控制
流匹配
策略梯度 |
[自动]
[ARXIV] | 4min | school
RLAnything:构建完全动态强化学习系统环境与模型 02-04
RLAnything
强化学习
LLM |
[自动]
[ARXIV] | 3min | school
训练LLM采用分治推理提升测试时扩展性 02-03
LLM
推理
强化学习 |
[自动]
[ARXIV] | 4min | school
基于流策略梯度的机器人控制方法 02-03
机器人控制
流匹配
策略梯度 |
[自动]
[ARXIV] | 4min | school
基于文本反馈扩展强化学习的能力 02-03
强化学习
RLHF
文本反馈 |
[自动]
[ARXIV] | 4min | school
RLAnything:完全动态强化学习系统构建环境、策略与奖励模型 02-03
强化学习
RL
LLM |
[自动]
[ARXIV] | 4min | school
MemSkill:赋予自进化代理学习与演进记忆技能 02-03
MemSkill
智能体
记忆机制 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
NVIDIA Cosmos策略:提升机器人控制能力 02-03
NVIDIA
Cosmos
机器人 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
NVIDIA Cosmos 策略模型提升机器人高级控制能力 02-03
NVIDIA
Cosmos
机器人 |
[自动]
[ARXIV] | 3min | school
研究揭示RLHF如何加剧大模型谄媚行为 02-03
RLHF
谄媚行为
模型偏见 |
[自动]
[ARXIV] | 4min | school
智能体推理与工具使用的竞争:量化干扰与解调优 02-03
智能体
强化学习
工具使用 |
[自动]
[ARXIV] | 3min | school
大语言模型稀疏奖励子系统 02-03
LLM
稀疏奖励
价值神经元 |
[自动]
[HACKER_NEWS] | 4min | newspaper
AI 基准测试新进展:Game Arena 推进评估方法 02-03
AI 基准测试
Game Arena
模型评估 |
[自动]
[HACKER_NEWS] | 5min | newspaper
利用Game Arena平台推进AI基准测试 02-03
AI基准测试
Game Arena
LLM评估 |
[自动]
[HACKER_NEWS] | 4min | newspaper
用Game Arena平台推进AI基准测试 02-02
AI基准测试
Game Arena
LLM评估 |
[自动]
[ARXIV] | 4min | school
共享自治系统中信念与策略学习的端到端优化 02-02
共享自治
BRACE
贝叶斯推断 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
NVIDIA Cosmos 策略模型提升机器人高级控制能力 02-02
NVIDIA
Cosmos
机器人 |
[自动]
[ARXIV] | 4min | school
RN-D:基于正则化网络的离散分类演员与同策强化学习 02-02
强化学习
RL
连续控制 |
[自动]
[ARXIV] | 4min | school
探索面向智能体的推理奖励模型 02-02
Agentic RL
Reward Model
推理奖励 |
[自动]
[ARXIV] | 5min | school
DynaWeb:基于模型的强化学习网页智能体 02-02
DynaWeb
Web Agent
强化学习 |
[自动]
[ARXIV] | 4min | school
探索面向智能体的推理奖励模型 02-01
Agent
RLHF
奖励模型 |
[自动]
[ARXIV] | 5min | school
DynaWeb:基于模型的强化学习网页智能体 02-01
DynaWeb
Web Agent
强化学习 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
NVIDIA Cosmos 策略模型提升机器人控制能力 02-01
NVIDIA
Cosmos
机器人 |
2026年一月
31 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 5min | school
探索面向智能体的推理奖励模型 01-31
Agent
强化学习
奖励模型 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
NVIDIA Cosmos策略:面向高级机器人控制的新方法 01-31
NVIDIA
机器人
Cosmos |
[自动]
[ARXIV] | 5min | school
DynaWeb:基于模型的强化学习网页智能体框架 01-31
DynaWeb
Web Agent
强化学习 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
NVIDIA Cosmos 策略模型提升机器人控制精度 01-31
NVIDIA
Cosmos
机器人 |
[自动]
[ARXIV] | 5min | school
探索面向智能体的推理奖励模型 01-30
Agent
强化学习
推理奖励模型 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
NVIDIA Cosmos策略:提升机器人高级控制能力 01-30
NVIDIA
机器人
Cosmos |
[自动]
[HACKER_NEWS] | 4min | newspaper
Kimi K2.5 技术报告发布:强化学习与长上下文能力升级 01-30
Kimi
K2.5
强化学习 |
[自动]
[ARXIV] | 5min | school
DynaWeb:基于模型的强化学习网页智能体 01-30
DynaWeb
Web Agent
强化学习 |
[自动]
[ARXIV] | 4min | school
面向文本检索器域适应的影响引导采样方法 01-30
文本检索
域适应
密集检索 |
[自动]
[ARXIV] | 4min | school
基于认知上下文学习构建大模型多智能体系统的信任机制 01-30
多智能体
信任机制
ECL |
[自动]
[ARXIV] | 3min | school
基于经验的试错算法超越语言模型 01-30
LLM
SCOUT
探索与利用 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
NVIDIA Cosmos策略:提升机器人控制能力 01-29
NVIDIA
机器人
Cosmos |
[自动]
[BLOGS_PODCASTS] | 3min | mic
🔥实战复盘:解锁GPT-OSS的智能体RL训练秘籍! 01-28
强化学习
智能体
Llama |
[自动]
[ARXIV] | 4min | school
🔥动态环境下的对抗约束:Bandits算法如何应对未知挑战? 01-28
Bandits
对抗约束
动态环境 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-OSS实战复盘:解锁Agentic RL训练的突破性路径!🚀 01-28
GPT-OSS
强化学习
RL训练 |
[自动]
[ARXIV] | 4min | school
🚚🚀多目标强化学习!让卡车在高速车流中决策更高效、更智能! 01-28
强化学习
PPO
多目标优化 |
[自动]
[ARXIV] | 4min | school
🚀复用FLOPs!RL突破性扩展:超离策略前缀如何解决硬难题? 01-28
强化学习
RL
LLM |
[自动]
[ARXIV] | 4min | school
🔥模型自学革命!突破可学习性边界,推理能力暴涨! 01-28
SOAR
强化学习
推理能力 |
[自动]
[ARXIV] | 5min | school
🔥POPE:利用特权探索破解硬核难题! 01-28
POPE
强化学习
LLM |
[自动]
[ARXIV] | 4min | school
突破极限!AI如何教会自己推理?🤯 边缘学习性的惊天秘密!🚀 01-27
SOAR
强化学习
元学习 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
实战复盘:解锁GPT-OSS智能体强化训练!🚀 01-27
强化学习
智能体
模型蒸馏 |
[自动]
[ARXIV] | 4min | school
🚛🚦高速公路卡车决策新突破!多目标强化学习让战术决策更高效! 01-27
强化学习
PPO
多目标优化 |
[自动]
[ARXIV] | 5min | school
🚀RL新突破!复用FLOPs,硬难题上通过离线前缀扩展 01-27
PrefixRL
强化学习
LLM |
[自动]
[ARXIV] | 4min | school
🔥POPE:用特权探索让AI学会解决复杂难题! 01-27
强化学习
LLM
推理能力 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
揭秘Agentic RL训练!GPT-OSS实战回顾,核心干货🔥 01-27
Agentic RL
强化学习
GPT-OSS |
[自动]
[HACKER_NEWS] | 3min | newspaper
Kimi K2.5震撼开源!视觉SOTA Agent模型,性能炸裂🔥 01-27
Kimi
K2.5
多模态 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
🚀GPT-OSS智能体RL训练解密!从0到1实战复盘🔥 01-27
强化学习
Agent
GPT-OSS |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Unlocking Agentic RL Training for GPT-OSS: A Practical Retrospective 01-27
Agentic RL
强化学习
GPT-OSS |
[自动]
[ARXIV] | 7min | school
高效定理证明新突破!结构化提示实现少样本学习 🚀 01-25
定理证明
Lean
DeepSeek-Prover |
[自动]
[ARXIV] | 4min | school
测试时也能发现新规律?🤯AI解锁动态学习能力! 01-25
TTT-Discover
测试时训练
强化学习 |
[自动]
[ARXIV] | 5min | school
🚀沙盒机制唤醒LLM智能体通用能力!AI Agent突破性架构! 01-25
LLM
AI Agent
沙盒机制 |
无匹配条目