terminal

AI Stack

rss_feed
SYS_STABLE
目录

GRPO

条目:21
2026年二月 18 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
4minmic 基于 veRL 与 Ray 在 SageMaker 上训练 CodeFu-7B 模型
02-26 veRL Ray SageMaker
[自动] [BLOGS_PODCASTS]
4minmic 在 Amazon SageMaker 上使用 veRL 与 Ray 训练 CodeFu-7B 模型
02-26 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]
5minmic 在 Amazon SageMaker 上使用 veRL 与 Ray 训练 CodeFu-7B 模型
02-26 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]
5minmic 基于 veRL 在 SageMaker 与 Ray 上训练 CodeFu-7B 模型
02-25 veRL SageMaker Ray
[自动] [BLOGS_PODCASTS]
5minmic 使用 veRL 和 Ray 在 SageMaker 上训练 CodeFu-7B 模型
02-25 veRL Ray SageMaker
[自动] [BLOGS_PODCASTS]
5minmic 基于veRL与Ray在SageMaker上训练CodeFu-7B模型
02-25 veRL Ray SageMaker
[自动] [BLOGS_PODCASTS]
5minmic 在 Amazon SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 模型
02-25 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]
5minmic 使用 veRL 和 Ray 在 SageMaker 上训练 CodeFu-7B 模型
02-25 SageMaker Ray veRL
[自动] [BLOGS_PODCASTS]
5minmic 在 SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B
02-25 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]
5minmic 在 Amazon SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 模型
02-25 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]
5minmic 在 Amazon SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 模型
02-24 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]
5minmic 在 SageMaker 上利用 veRL 与 Ray 训练 CodeFu-7B
02-24 LLM SageMaker Ray
[自动] [BLOGS_PODCASTS]
6minmic 使用veRL和Ray在SageMaker上训练CodeFu-7B模型
02-24 SageMaker veRL Ray
[自动] [ARXIV]
4minschool 用于软优势策略优化的平滑门函数
02-24 强化学习 GRPO SAPO
[自动] [ARXIV]
5minschool Soft Sequence Policy Optimization:连接GMPO与SAPO
02-24 SSPO LLM对齐 强化学习
[自动] [ARXIV]
4minschool 过程监督多智能体强化学习提升临床推理可靠性
02-17 多智能体 强化学习 临床推理
[自动] [ARXIV]
5minschool 基于枢纽重采样的LLM强化学习深度密集探索
02-17 LLM 强化学习 RLHF
[自动] [ARXIV]
4minschool 受限群组相对策略优化
02-06 GRPO 强化学习 策略优化
2026年一月 3 篇
类型阅读条目
[自动] [ARXIV]
4minschool 进化策略导致大语言模型出现灾难性遗忘
01-30 进化策略 灾难性遗忘 持续学习
[自动] [ARXIV]
4minschool 进化策略导致大语言模型出现灾难性遗忘
01-29 进化策略 灾难性遗忘 持续学习
[自动] [BLOGS_PODCASTS]
3minmic 🔥实战复盘:解锁GPT-OSS的智能体RL训练秘籍!
01-28 强化学习 智能体 Llama