目录
策略优化
条目:9
2026年四月
1 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 1min | school
代理多模态模型的元认知工具使用策略 04-12
多模态模型
工具调用
元认知 |
2026年三月
4 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 3min | school
RoboPocket:利用手机即时优化机器人控制策略 03-09
机器人
模仿学习
RoboPocket |
[自动]
[ARXIV] | 3min | school
RoboPocket:利用手机即时优化机器人策略 03-08
机器人
模仿学习
RoboPocket |
[自动]
[ARXIV] | 3min | school
RoboPocket:利用手机即时优化机器人控制策略 03-07
机器人
模仿学习
RoboPocket |
[自动]
[ARXIV] | 4min | school
RoboPocket:利用手机即时优化机器人策略 03-06
机器人
模仿学习
RoboPocket |
2026年二月
4 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 3min | school
用于软优势策略优化的平滑门函数 02-24
强化学习
GRPO
SAPO |
[自动]
[ARXIV] | 4min | school
Soft Sequence Policy Optimization:连接GMPO与SAPO 02-24
SSPO
LLM对齐
强化学习 |
[自动]
[ARXIV] | 4min | school
受限群组相对策略优化 02-06
GRPO
强化学习
策略优化 |
[自动]
[ARXIV] | 5min | school
重新思考大模型强化学习中的信任区域 02-05
RLHF
PPO
强化学习 |
无匹配条目