策略优化

条目：4

2026年二月 4 篇

类型	阅读	条目
[自动] [ARXIV]	4min	school 用于软优势策略优化的平滑门函数 02-24 强化学习 GRPO SAPO
[自动] [ARXIV]	5min	school Soft Sequence Policy Optimization：连接GMPO与SAPO 02-24 SSPO LLM对齐强化学习
[自动] [ARXIV]	4min	school 受限群组相对策略优化 02-06 GRPO 强化学习策略优化
[自动] [ARXIV]	5min	school 重新思考大模型强化学习中的信任区域 02-05 RLHF PPO 强化学习