目录
GRPO
条目:21
2026年二月
18 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 4min | mic
基于 veRL 与 Ray 在 SageMaker 上训练 CodeFu-7B 模型 02-26
veRL
Ray
SageMaker |
[自动]
[BLOGS_PODCASTS] | 4min | mic
在 Amazon SageMaker 上使用 veRL 与 Ray 训练 CodeFu-7B 模型 02-26
SageMaker
veRL
Ray |
[自动]
[BLOGS_PODCASTS] | 5min | mic
在 Amazon SageMaker 上使用 veRL 与 Ray 训练 CodeFu-7B 模型 02-26
SageMaker
veRL
Ray |
[自动]
[BLOGS_PODCASTS] | 5min | mic
基于 veRL 在 SageMaker 与 Ray 上训练 CodeFu-7B 模型 02-25
veRL
SageMaker
Ray |
[自动]
[BLOGS_PODCASTS] | 5min | mic
使用 veRL 和 Ray 在 SageMaker 上训练 CodeFu-7B 模型 02-25
veRL
Ray
SageMaker |
[自动]
[BLOGS_PODCASTS] | 5min | mic
基于veRL与Ray在SageMaker上训练CodeFu-7B模型 02-25
veRL
Ray
SageMaker |
[自动]
[BLOGS_PODCASTS] | 5min | mic
在 Amazon SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 模型 02-25
SageMaker
veRL
Ray |
[自动]
[BLOGS_PODCASTS] | 5min | mic
使用 veRL 和 Ray 在 SageMaker 上训练 CodeFu-7B 模型 02-25
SageMaker
Ray
veRL |
[自动]
[BLOGS_PODCASTS] | 5min | mic
在 SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 02-25
SageMaker
veRL
Ray |
[自动]
[BLOGS_PODCASTS] | 5min | mic
在 Amazon SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 模型 02-25
SageMaker
veRL
Ray |
[自动]
[BLOGS_PODCASTS] | 5min | mic
在 Amazon SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 模型 02-24
SageMaker
veRL
Ray |
[自动]
[BLOGS_PODCASTS] | 5min | mic
在 SageMaker 上利用 veRL 与 Ray 训练 CodeFu-7B 02-24
LLM
SageMaker
Ray |
[自动]
[BLOGS_PODCASTS] | 6min | mic
使用veRL和Ray在SageMaker上训练CodeFu-7B模型 02-24
SageMaker
veRL
Ray |
[自动]
[ARXIV] | 4min | school
用于软优势策略优化的平滑门函数 02-24
强化学习
GRPO
SAPO |
[自动]
[ARXIV] | 5min | school
Soft Sequence Policy Optimization:连接GMPO与SAPO 02-24
SSPO
LLM对齐
强化学习 |
[自动]
[ARXIV] | 4min | school
过程监督多智能体强化学习提升临床推理可靠性 02-17
多智能体
强化学习
临床推理 |
[自动]
[ARXIV] | 5min | school
基于枢纽重采样的LLM强化学习深度密集探索 02-17
LLM
强化学习
RLHF |
[自动]
[ARXIV] | 4min | school
受限群组相对策略优化 02-06
GRPO
强化学习
策略优化 |
2026年一月
3 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
进化策略导致大语言模型出现灾难性遗忘 01-30
进化策略
灾难性遗忘
持续学习 |
[自动]
[ARXIV] | 4min | school
进化策略导致大语言模型出现灾难性遗忘 01-29
进化策略
灾难性遗忘
持续学习 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
🔥实战复盘:解锁GPT-OSS的智能体RL训练秘籍! 01-28
强化学习
智能体
Llama |
无匹配条目