目录
SAPO
条目:2
2026年二月
2 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
用于软优势策略优化的平滑门函数 02-24
强化学习
GRPO
SAPO |
[自动]
[ARXIV] | 5min | school
Soft Sequence Policy Optimization:连接GMPO与SAPO 02-24
SSPO
LLM对齐
强化学习 |
无匹配条目
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
用于软优势策略优化的平滑门函数 02-24
强化学习
GRPO
SAPO |
[自动]
[ARXIV] | 5min | school
Soft Sequence Policy Optimization:连接GMPO与SAPO 02-24
SSPO
LLM对齐
强化学习 |