目录
LLM训练
条目:2
2026年二月
2 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 5min | mic
在 Amazon SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 模型 02-25
SageMaker
veRL
Ray |
[自动]
[ARXIV] | 4min | school
用于软优势策略优化的平滑门函数 02-24
强化学习
GRPO
SAPO |
无匹配条目
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 5min | mic
在 Amazon SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 模型 02-25
SageMaker
veRL
Ray |
[自动]
[ARXIV] | 4min | school
用于软优势策略优化的平滑门函数 02-24
强化学习
GRPO
SAPO |