目录
强化学习
条目:191
2026年四月
6 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 2min | mic
使用Lambda设计Amazon Nova模型的奖励函数指南 04-14
RLVR
RLAIF
奖励函数 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AWS Lambda为Amazon Nova构建可扩展奖励函数的最佳实践 04-13
AWS Lambda
Amazon Nova
强化学习 |
[自动]
[ARXIV] | 1min | school
代理多模态模型的元认知工具使用策略 04-12
多模态模型
工具调用
元认知 |
[自动]
[ARXIV] | 2min | school
发展代理多模态模型的元认知工具使用能力 04-11
多模态代理
工具调用优化
元认知 |
[自动]
[ARXIV] | 1min | school
面向代理多模态模型的元认知工具使用培养 04-10
多模态模型
强化学习
工具使用 |
[自动]
[BLOGS_PODCASTS] | 1min | mic
ALTK-Evolve让AI代理边工作边学习 04-08
AI代理
持续学习
在线学习 |
2026年三月
54 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[JUEJIN] | 1min | sticky_note_2
机器学习:先看数据标签再选算法 03-20
机器学习
算法分类
监督学习 |
[自动]
[ARXIV] | 3min | school
边缘端高效推理:资源受限设备的模型优化方法 03-18
边缘计算
模型压缩
高效推理 |
[自动]
[ARXIV] | 3min | school
对抗性腐败与重尾噪声下的鲁棒高效线性情境老虎机算法 03-18
强化学习
情境老虎机
鲁棒性 |
[自动]
[ARXIV] | 4min | school
Code-A1:基于强化学习的代码与测试大模型对抗进化 03-18
Code-A1
强化学习
代码生成 |
[自动]
[ARXIV] | 3min | school
强化学习激发过程推理能力提升机器人操控性能 03-17
机器人操控
强化学习
过程推理 |
[自动]
[ARXIV] | 4min | school
对抗性腐蚀与重尾噪声下的鲁棒高效线性情境赌博机 03-17
强化学习
情境赌博机
对抗性攻击 |
[自动]
[ARXIV] | 2min | school
Code-A1:基于强化学习的代码与测试大模型对抗进化 03-17
Code-A1
强化学习
代码生成 |
[自动]
[ARXIV] | 3min | school
Visual-ERM:面向视觉等价性的奖励建模 03-17
Visual-ERM
视觉奖励模型
LVLM |
[自动]
[ARXIV] | 3min | school
PhysMoDPO:基于偏好优化的人形机器人物理逼真运动生成 03-17
人形机器人
运动控制
DPO |
[自动]
[ARXIV] | 3min | school
基于能量函数的语言模型特征匹配微调方法 03-16
LLM
微调
能量函数 |
[自动]
[ARXIV] | 3min | school
可分离神经架构:统一预测与生成智能的基元 03-16
SNA
神经架构
统一智能 |
[自动]
[HACKER_NEWS] | 2min | newspaper
基于不完美人体运动数据学习人形机器人网球技能 03-16
人形机器人
运动学习
强化学习 |
[自动]
[ARXIV] | 3min | school
探究推理模型作为裁判在非可验证LLM后训练中的表现 03-15
LLM
RLHF
强化学习 |
[自动]
[HACKER_NEWS] | 1min | newspaper
利用不完美人体动作数据学习仿人机器人网球技能 03-15
仿人机器人
运动控制
强化学习 |
[自动]
[HACKER_NEWS] | 1min | newspaper
基于PPO的树搜索蒸馏优化语言模型 03-15
PPO
强化学习
模型蒸馏 |
[自动]
[HACKER_NEWS] | 1min | newspaper
基于PPO的树搜索蒸馏技术优化语言模型 03-15
PPO
树搜索
模型蒸馏 |
[自动]
[HACKER_NEWS] | 1min | newspaper
基于PPO的树搜索蒸馏优化语言模型 03-15
PPO
强化学习
树搜索 |
[自动]
[HACKER_NEWS] | 1min | newspaper
基于PPO的树搜索蒸馏技术优化语言模型 03-15
PPO
强化学习
树搜索 |
[自动]
[ARXIV] | 3min | school
探究非可验证LLM后训练中的推理模型评判机制 03-14
LLM
RLHF
强化学习 |
[自动]
[ARXIV] | 3min | school
基于能量函数的语言模型特征级微调方法 03-14
LLM
微调
EBFT |
[自动]
[ARXIV] | 3min | school
探究推理LLM作为非可验证后训练评估器的有效性 03-13
LLM-as-Judge
RLHF
强化学习 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
16个开源RL库的经验总结:保持Token流动 03-11
RLHF
强化学习
开源库 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
16个开源强化学习库的实践经验与启示 03-11
强化学习
RL
开源库 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
基于16个开源RL库的Token流生成经验总结 03-11
RLHF
强化学习
LLM |
[自动]
[BLOGS_PODCASTS] | 2min | mic
16个开源强化学习库的实践经验总结 03-11
强化学习
RL
开源库 |
[自动]
[ARXIV] | 4min | school
Agentic Critical Training:基于批判性反馈的大模型推理能力提升机制 03-11
Agentic AI
强化学习
推理能力 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
从16个开源强化学习库中总结的Token流优化经验 03-10
强化学习
RLHF
Token流 |
[自动]
[ARXIV] | 4min | school
Agentic Critical Training:基于智能体批判机制的模型训练方法 03-10
ACT
Agent
强化学习 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
16个开源RL库经验总结:维持Token流的关键 03-10
RLHF
强化学习
开源库 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
基于16个开源RL库的Token流生成经验总结 03-10
RLHF
强化学习
开源库 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
AlphaGo十周年:从游戏到生物科学加速AGI发展 03-10
AlphaGo
AGI
DeepMind |
[自动]
[BLOGS_PODCASTS] | 2min | mic
16个开源强化学习库的经验总结与启示 03-10
强化学习
RL
开源库 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
从16个开源强化学习库中总结的Token流优化经验 03-10
强化学习
RL
Token流 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AlphaGo十年:加速科学发现并铺就AGI之路 03-10
AlphaGo
AGI
科学发现 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
LeRobot v0.5.0 发布:扩展数据、模型与仿真维度 03-10
LeRobot
机器人
仿真 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
16个开源强化学习库的实践经验与启示 03-10
强化学习
RL
开源库 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
LeRobot v0.5.0:全维度扩展与规模化升级 03-10
LeRobot
机器人
端到端学习 |
[自动]
[ARXIV] | 4min | school
利用逻辑选项预训练提升深度强化学习 03-10
强化学习
RL
H²RL |
[自动]
[ARXIV] | 3min | school
利用逻辑选项预训练提升深度强化学习 03-09
强化学习
H^2RL
逻辑选项 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI研究:推理模型思维链难控强化可监控安全性 03-07
OpenAI
CoT
思维链 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
OpenAI研究:推理模型思维链难控强化可监控性 03-07
OpenAI
CoT
思维链 |
[自动]
[ARXIV] | 3min | school
TaxonRL:基于中间奖励强化学习的可解释细粒度视觉推理 03-06
TaxonRL
强化学习
细粒度分类 |
[自动]
[ARXIV] | 3min | school
TaxonRL:基于中间奖励的可解释细粒度视觉推理 03-05
TaxonRL
强化学习
细粒度视觉推理 |
[自动]
[ARXIV] | 4min | school
Valet:传统不完美信息卡牌游戏标准化测试平台 03-05
AI
博弈论
不完美信息 |
[自动]
[ARXIV] | 3min | school
Valet:传统不完美信息卡牌游戏标准化测试基准 03-04
Valet
不完美信息
卡牌游戏 |
[自动]
[ARXIV] | 4min | school
Conformal Policy Control:基于保形预测的策略控制方法 03-04
保形预测
策略控制
RL |
[自动]
[ARXIV] | 3min | school
测试时强化学习的工具验证方法 03-04
T3RL
Test-Time RL
强化学习 |
[自动]
[ARXIV] | 3min | school
Reasoning Core:符号模型预训练与后训练的程序化数据生成套件 03-04
符号推理
数据生成
Reasoning Core |
[自动]
[ARXIV] | 3min | school
Conformal Policy Control:一种基于保形预测的策略控制方法 03-03
保形预测
策略控制
安全探索 |
[自动]
[ARXIV] | 4min | school
持续强化学习中的快速与元知识学习原则 03-03
强化学习
持续学习
元学习 |
[自动]
[ARXIV] | 4min | school
CUDA Agent:面向高性能内核生成的大规模智能体强化学习 03-03
CUDA
强化学习
智能体 |
[自动]
[ARXIV] | 4min | school
CUDA Agent:面向高性能内核生成的大规模智能体强化学习框架 03-02
CUDA Agent
强化学习
内核生成 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic模型蒸馏与SWE-Bench失效机制分析直播 03-02
模型蒸馏
SWE-Bench
基准测试 |
[自动]
[ARXIV] | 3min | school
SafeGen-LLM:增强机器人系统任务规划的安全泛化能力 03-02
SafeGen-LLM
机器人
任务规划 |
2026年二月
100 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 3min | school
无模型通用AI框架 02-27
通用人工智能
强化学习
无模型 |
[自动]
[ARXIV] | 3min | school
提升推理语言模型的参数化知识获取能力 02-27
LLM
推理模型
参数化知识 |
[自动]
[ARXIV] | 4min | school
GUI-Libra:动作感知监督与可验证强化学习的原生GUI智能体 02-27
GUI Agent
强化学习
RL |
[自动]
[ARXIV] | 3min | school
提升推理语言模型的参数化知识访问能力 02-26
推理模型
参数化知识
强化学习 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
在 Amazon SageMaker 上使用 veRL 与 Ray 训练 CodeFu-7B 模型 02-26
SageMaker
veRL
Ray |
[自动]
[ARXIV] | 4min | school
Squint:面向机器人虚实迁移的快速视觉强化学习 02-26
强化学习
机器人
Sim-to-Real |
[自动]
[BLOGS_PODCASTS] | 4min | mic
基于 veRL 在 SageMaker 与 Ray 上训练 CodeFu-7B 模型 02-25
veRL
SageMaker
Ray |
[自动]
[ARXIV] | 4min | school
基于试错反思的具身大模型测试时规划 02-25
具身智能
反思机制
测试时规划 |
[自动]
[ARXIV] | 4min | school
Squint:面向机器人具身迁移的快速视觉强化学习 02-25
强化学习
机器人
Sim-to-Real |
[自动]
[BLOGS_PODCASTS] | 4min | mic
使用 veRL 和 Ray 在 SageMaker 上训练 CodeFu-7B 模型 02-25
veRL
Ray
SageMaker |
[自动]
[BLOGS_PODCASTS] | 5min | mic
基于veRL与Ray在SageMaker上训练CodeFu-7B模型 02-25
veRL
Ray
SageMaker |
[自动]
[BLOGS_PODCASTS] | 5min | mic
在 Amazon SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 模型 02-25
SageMaker
veRL
Ray |
[自动]
[BLOGS_PODCASTS] | 4min | mic
在 SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 02-25
SageMaker
veRL
Ray |
[自动]
[BLOGS_PODCASTS] | 5min | mic
在 Amazon SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 模型 02-25
SageMaker
veRL
Ray |
[自动]
[ARXIV] | 3min | school
部分可观测平均场博弈的循环结构策略梯度算法 02-25
平均场博弈
MFG
策略梯度 |
[自动]
[BLOGS_PODCASTS] | 5min | mic
在 Amazon SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 模型 02-24
SageMaker
veRL
Ray |
[自动]
[BLOGS_PODCASTS] | 5min | mic
在 SageMaker 上利用 veRL 与 Ray 训练 CodeFu-7B 02-24
LLM
SageMaker
Ray |
[自动]
[ARXIV] | 3min | school
部分可观测平均场博弈的循环结构策略梯度算法 02-24
平均场博弈
部分可观测
策略梯度 |
[自动]
[BLOGS_PODCASTS] | 5min | mic
使用veRL和Ray在SageMaker上训练CodeFu-7B模型 02-24
SageMaker
veRL
Ray |
[自动]
[ARXIV] | 3min | school
用于软优势策略优化的平滑门函数 02-24
强化学习
GRPO
SAPO |
[自动]
[ARXIV] | 4min | school
Soft Sequence Policy Optimization:连接GMPO与SAPO 02-24
SSPO
LLM对齐
强化学习 |
[自动]
[ARXIV] | 4min | school
强化快速权重结合下一序列预测模型 02-20
REFINE
强化学习
快速权重 |
[自动]
[ARXIV] | 3min | school
Calibrate-Then-Act:面向大模型智能体的成本感知探索 02-20
LLM Agents
成本感知
CTA框架 |
[自动]
[ARXIV] | 4min | school
强化快速权重与下一序列预测 02-19
REFINE
快速权重
强化学习 |
[自动]
[ARXIV] | 3min | school
Dex4D:任务无关点跟踪策略实现灵巧操作Sim-to-Real 02-19
灵巧操作
Sim-to-Real
机器人 |
[自动]
[ARXIV] | 3min | school
利用强化学习解决未知可行性的参数鲁棒避障问题 02-18
强化学习
鲁棒性
避障 |
[自动]
[ARXIV] | 4min | school
Dex4D:任务无关点跟踪策略实现灵巧操作跨域迁移 02-18
灵巧操作
Sim-to-Real
强化学习 |
[自动]
[ARXIV] | 3min | school
基于结构化世界模型先验的冷启动个性化方案 02-18
冷启动
个性化
世界模型 |
[自动]
[ARXIV] | 3min | school
基于结构化世界模型的无训练先验用于冷启动个性化 02-17
个性化
冷启动
世界模型 |
[自动]
[ARXIV] | 4min | school
过程监督多智能体强化学习提升临床推理可靠性 02-17
多智能体
强化学习
临床推理 |
[自动]
[HACKER_NEWS] | 4min | newspaper
研究:自生成的智能体技能通常无效 02-17
AI Agent
智能体
LLM |
[自动]
[ARXIV] | 5min | school
基于枢纽重采样的LLM强化学习深度密集探索 02-17
LLM
强化学习
RLHF |
[自动]
[ARXIV] | 4min | school
基于大语言模型的端到端网络事件自主响应方法 02-17
LLM Agent
网络安全
事件响应 |
[自动]
[ARXIV] | 4min | school
仿真筛选模块化策略:从人类视频学习有效行为 02-16
机器人
强化学习
模仿学习 |
[自动]
[HACKER_NEWS] | 4min | newspaper
研究:自生成的Agent技能通常无效 02-16
Agent
LLM
自生成技能 |
[自动]
[ARXIV] | 4min | school
面向语言模型的在线上下文蒸馏方法 02-16
LLM
蒸馏
上下文学习 |
[自动]
[ARXIV] | 5min | school
CM2:基于清单奖励强化学习的多步智能体工具调用 02-16
强化学习
Agent
工具调用 |
[自动]
[ARXIV] | 3min | school
CM2:基于清单奖励强化学习的多步智能体工具调用 02-15
CM2
强化学习
Agent |
[自动]
[ARXIV] | 4min | school
CM2:基于清单奖励强化学习的多步多轮智能体工具调用 02-14
智能体
强化学习
工具调用 |
[自动]
[ARXIV] | 6min | school
CM2:基于清单奖励强化学习的多轮多步智能体工具调用 02-13
强化学习
Agent
工具调用 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Gemini 3 Deep Think:强化推理模式以应对科研与工程挑战 02-13
Gemini 3
Deep Think
推理模型 |
[自动]
[ARXIV] | 3min | school
能力导向训练引发大模型对齐风险研究 02-13
AI对齐
强化学习
奖励黑客 |
[自动]
[ARXIV] | 4min | school
基于奖励外推的广义在线策略蒸馏算法 02-13
LLM
强化学习
知识蒸馏 |
[自动]
[ARXIV] | 4min | school
基于归一化流的高效分层目标条件强化学习 02-13
强化学习
分层强化学习
归一化流 |
[自动]
[ARXIV] | 3min | school
基于归一化流的高效分层目标条件强化学习 02-12
强化学习
归一化流
分层强化学习 |
[自动]
[ARXIV] | 5min | school
Agent World Model:面向智能体强化学习的无限合成环境 02-12
Agent World Model
强化学习
合成环境 |
[自动]
[ARXIV] | 4min | school
CODE-SHARP:基于分层奖励程序的技能持续演化框架 02-11
CODE-SHARP
强化学习
RL |
[自动]
[ARXIV] | 3min | school
Agent World Model: Infinity Synthetic Environments for 02-11
Agent
World Model
强化学习 |
[自动]
[ARXIV] | 2min | school
Anagent For Enhancing Scientific Table & Figure Analysi 02-11
Anagent
多智能体
科学图表分析 |
[自动]
[ARXIV] | 4min | school
InftyThink+: 基于强化学习的高效无限视野推理框架 02-09
强化学习
推理框架
思维链 |
[自动]
[ARXIV] | 4min | school
DreamDojo:基于大规模人类视频的通用机器人世界模型 02-09
机器人
世界模型
DreamDojo |
[自动]
[ARXIV] | 3min | school
视觉语言模型能否通过交互学习直观物理 02-09
VLM
直觉物理
强化学习 |
[自动]
[ARXIV] | 4min | school
好奇心即知识:基于主动推理的自一致学习与无遗憾优化 02-09
主动推理
好奇心
自一致学习 |
[自动]
[ARXIV] | 3min | school
面向运行时智能体记忆的查询感知预算层路由 02-08
Agent
LLM
智能体 |
[自动]
[ARXIV] | 4min | school
好奇心即知识:基于主动推理的自一致学习与无悔优化 02-08
主动推理
好奇心
探索与利用 |
[自动]
[HACKER_NEWS] | 4min | newspaper
基于人类反馈的强化学习:原理与应用 02-07
RLHF
强化学习
人类反馈 |
[自动]
[ARXIV] | 5min | school
面向运行时智能体记忆的查询感知预算层路由 02-07
Agent
LLM
Memory |
[自动]
[ARXIV] | 3min | school
视觉语言模型能否通过交互学习直观物理 02-07
VLM
多模态
具身智能 |
[自动]
[ARXIV] | 3min | school
好奇心即知识:基于主动推理的自一致学习与无悔优化 02-07
主动推理
强化学习
好奇心 |
[自动]
[HACKER_NEWS] | 4min | newspaper
基于人类反馈的强化学习原理与应用 02-07
RLHF
强化学习
人类反馈 |
[自动]
[HACKER_NEWS] | 5min | newspaper
基于人类反馈的强化学习:原理与应用 02-07
RLHF
强化学习
人类反馈 |
[自动]
[HACKER_NEWS] | 7min | newspaper
基于人类反馈的强化学习机制解析 02-07
RLHF
强化学习
人类反馈 |
[自动]
[ARXIV] | 3min | school
视觉语言模型能否通过交互学习直觉物理 02-06
VLM
直觉物理
强化学习 |
[自动]
[ARXIV] | 3min | school
好奇心即知识:基于主动推理的自一致学习与无遗憾优化 02-06
主动推理
探索与利用
自由能 |
[自动]
[ARXIV] | 4min | school
受限群组相对策略优化 02-06
GRPO
强化学习
策略优化 |
[自动]
[ARXIV] | 4min | school
重新思考大模型强化学习中的信任区域机制 02-06
强化学习
LLM
PPO |
[自动]
[ARXIV] | 4min | school
强化注意力学习:通过奖励机制优化视觉注意力模型 02-06
强化学习
多模态
注意力机制 |
[自动]
[ARXIV] | 4min | school
CRoSS:面向可扩展强化学习的持续机器人仿真套件 02-06
强化学习
机器人仿真
Gazebo |
[自动]
[ARXIV] | 5min | school
重新思考大模型强化学习中的信任区域 02-05
RLHF
PPO
强化学习 |
[自动]
[ARXIV] | 4min | school
强化注意力学习:基于奖励反馈的注意力机制优化方法 02-05
强化学习
注意力机制
多模态 |
[自动]
[ARXIV] | 5min | school
CRoSS:面向可扩展强化学习的持续机器人仿真套件 02-05
强化学习
持续学习
机器人仿真 |
[自动]
[ARXIV] | 4min | school
基于急停干预的鲁棒干预学习 02-05
干预学习
自动驾驶
鲁棒性 |
[自动]
[ARXIV] | 3min | school
基于急停干预的鲁棒干预学习 02-04
强化学习
RL
自动驾驶 |
[自动]
[ARXIV] | 4min | school
利用权重更新稀疏性的通信高效分布式强化学习 02-04
分布式训练
强化学习
通信优化 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Agent Skills:AI 智能体技能框架与训练方法 02-04
Agent
智能体
技能框架 |
[自动]
[ARXIV] | 4min | school
通过文本反馈扩展强化学习的能力边界 02-04
强化学习
RLHF
文本反馈 |
[自动]
[ARXIV] | 3min | school
训练LLM采用分治推理提升测试时扩展性 02-04
LLM
推理
强化学习 |
[自动]
[ARXIV] | 4min | school
基于流策略梯度的机器人控制方法 02-04
机器人控制
流匹配
策略梯度 |
[自动]
[ARXIV] | 4min | school
RLAnything:构建完全动态强化学习系统环境与模型 02-04
RLAnything
强化学习
LLM |
[自动]
[ARXIV] | 3min | school
训练LLM采用分治推理提升测试时扩展性 02-03
LLM
推理
强化学习 |
[自动]
[ARXIV] | 4min | school
基于流策略梯度的机器人控制方法 02-03
机器人控制
流匹配
策略梯度 |
[自动]
[ARXIV] | 4min | school
基于文本反馈扩展强化学习的能力 02-03
强化学习
RLHF
文本反馈 |
[自动]
[ARXIV] | 4min | school
RLAnything:完全动态强化学习系统构建环境、策略与奖励模型 02-03
强化学习
RL
LLM |
[自动]
[ARXIV] | 4min | school
MemSkill:赋予自进化代理学习与演进记忆技能 02-03
MemSkill
智能体
记忆机制 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
NVIDIA Cosmos策略:提升机器人控制能力 02-03
NVIDIA
Cosmos
机器人 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
NVIDIA Cosmos 策略模型提升机器人高级控制能力 02-03
NVIDIA
Cosmos
机器人 |
[自动]
[ARXIV] | 3min | school
研究揭示RLHF如何加剧大模型谄媚行为 02-03
RLHF
谄媚行为
模型偏见 |
[自动]
[ARXIV] | 4min | school
智能体推理与工具使用的竞争:量化干扰与解调优 02-03
智能体
强化学习
工具使用 |
[自动]
[ARXIV] | 3min | school
大语言模型稀疏奖励子系统 02-03
LLM
稀疏奖励
价值神经元 |
[自动]
[HACKER_NEWS] | 4min | newspaper
AI 基准测试新进展:Game Arena 推进评估方法 02-03
AI 基准测试
Game Arena
模型评估 |
[自动]
[HACKER_NEWS] | 5min | newspaper
利用Game Arena平台推进AI基准测试 02-03
AI基准测试
Game Arena
LLM评估 |
[自动]
[HACKER_NEWS] | 4min | newspaper
用Game Arena平台推进AI基准测试 02-02
AI基准测试
Game Arena
LLM评估 |
[自动]
[ARXIV] | 4min | school
共享自治系统中信念与策略学习的端到端优化 02-02
共享自治
BRACE
贝叶斯推断 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
NVIDIA Cosmos 策略模型提升机器人高级控制能力 02-02
NVIDIA
Cosmos
机器人 |
[自动]
[ARXIV] | 4min | school
RN-D:基于正则化网络的离散分类演员与同策强化学习 02-02
强化学习
RL
连续控制 |
[自动]
[ARXIV] | 4min | school
探索面向智能体的推理奖励模型 02-02
Agentic RL
Reward Model
推理奖励 |
[自动]
[ARXIV] | 4min | school
DynaWeb:基于模型的强化学习网页智能体 02-02
DynaWeb
Web Agent
强化学习 |
[自动]
[ARXIV] | 4min | school
探索面向智能体的推理奖励模型 02-01
Agent
RLHF
奖励模型 |
[自动]
[ARXIV] | 5min | school
DynaWeb:基于模型的强化学习网页智能体 02-01
DynaWeb
Web Agent
强化学习 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
NVIDIA Cosmos 策略模型提升机器人控制能力 02-01
NVIDIA
Cosmos
机器人 |
2026年一月
31 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 5min | school
探索面向智能体的推理奖励模型 01-31
Agent
强化学习
奖励模型 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
NVIDIA Cosmos策略:面向高级机器人控制的新方法 01-31
NVIDIA
机器人
Cosmos |
[自动]
[ARXIV] | 5min | school
DynaWeb:基于模型的强化学习网页智能体框架 01-31
DynaWeb
Web Agent
强化学习 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
NVIDIA Cosmos 策略模型提升机器人控制精度 01-31
NVIDIA
Cosmos
机器人 |
[自动]
[ARXIV] | 4min | school
探索面向智能体的推理奖励模型 01-30
Agent
强化学习
推理奖励模型 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
NVIDIA Cosmos策略:提升机器人高级控制能力 01-30
NVIDIA
机器人
Cosmos |
[自动]
[HACKER_NEWS] | 4min | newspaper
Kimi K2.5 技术报告发布:强化学习与长上下文能力升级 01-30
Kimi
K2.5
强化学习 |
[自动]
[ARXIV] | 4min | school
DynaWeb:基于模型的强化学习网页智能体 01-30
DynaWeb
Web Agent
强化学习 |
[自动]
[ARXIV] | 4min | school
面向文本检索器域适应的影响引导采样方法 01-30
文本检索
域适应
密集检索 |
[自动]
[ARXIV] | 3min | school
基于认知上下文学习构建大模型多智能体系统的信任机制 01-30
多智能体
信任机制
ECL |
[自动]
[ARXIV] | 3min | school
基于经验的试错算法超越语言模型 01-30
LLM
SCOUT
探索与利用 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
NVIDIA Cosmos策略:提升机器人控制能力 01-29
NVIDIA
机器人
Cosmos |
[自动]
[BLOGS_PODCASTS] | 3min | mic
🔥实战复盘:解锁GPT-OSS的智能体RL训练秘籍! 01-28
强化学习
智能体
Llama |
[自动]
[ARXIV] | 4min | school
🔥动态环境下的对抗约束:Bandits算法如何应对未知挑战? 01-28
Bandits
对抗约束
动态环境 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-OSS实战复盘:解锁Agentic RL训练的突破性路径!🚀 01-28
GPT-OSS
强化学习
RL训练 |
[自动]
[ARXIV] | 4min | school
🚚🚀多目标强化学习!让卡车在高速车流中决策更高效、更智能! 01-28
强化学习
PPO
多目标优化 |
[自动]
[ARXIV] | 4min | school
🚀复用FLOPs!RL突破性扩展:超离策略前缀如何解决硬难题? 01-28
强化学习
RL
LLM |
[自动]
[ARXIV] | 4min | school
🔥模型自学革命!突破可学习性边界,推理能力暴涨! 01-28
SOAR
强化学习
推理能力 |
[自动]
[ARXIV] | 5min | school
🔥POPE:利用特权探索破解硬核难题! 01-28
POPE
强化学习
LLM |
[自动]
[ARXIV] | 4min | school
突破极限!AI如何教会自己推理?🤯 边缘学习性的惊天秘密!🚀 01-27
SOAR
强化学习
元学习 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
实战复盘:解锁GPT-OSS智能体强化训练!🚀 01-27
强化学习
智能体
模型蒸馏 |
[自动]
[ARXIV] | 4min | school
🚛🚦高速公路卡车决策新突破!多目标强化学习让战术决策更高效! 01-27
强化学习
PPO
多目标优化 |
[自动]
[ARXIV] | 5min | school
🚀RL新突破!复用FLOPs,硬难题上通过离线前缀扩展 01-27
PrefixRL
强化学习
LLM |
[自动]
[ARXIV] | 4min | school
🔥POPE:用特权探索让AI学会解决复杂难题! 01-27
强化学习
LLM
推理能力 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
揭秘Agentic RL训练!GPT-OSS实战回顾,核心干货🔥 01-27
Agentic RL
强化学习
GPT-OSS |
[自动]
[HACKER_NEWS] | 3min | newspaper
Kimi K2.5震撼开源!视觉SOTA Agent模型,性能炸裂🔥 01-27
Kimi
K2.5
多模态 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
🚀GPT-OSS智能体RL训练解密!从0到1实战复盘🔥 01-27
强化学习
Agent
GPT-OSS |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Unlocking Agentic RL Training for GPT-OSS: A Practical Retrospective 01-27
Agentic RL
强化学习
GPT-OSS |
[自动]
[ARXIV] | 7min | school
高效定理证明新突破!结构化提示实现少样本学习 🚀 01-25
定理证明
Lean
DeepSeek-Prover |
[自动]
[ARXIV] | 4min | school
测试时也能发现新规律?🤯AI解锁动态学习能力! 01-25
TTT-Discover
测试时训练
强化学习 |
[自动]
[ARXIV] | 5min | school
🚀沙盒机制唤醒LLM智能体通用能力!AI Agent突破性架构! 01-25
LLM
AI Agent
沙盒机制 |
无匹配条目