LINK_STATUS: STABLE // ENCODING: UTF-8

SECTOR_ID: AI_STACK // MODE: LIST

terminal

AI Stack

时间 --:--:--

安全连接 rss_feed

SYS_STABLE

目录

GRPO

条目：21

2026年二月 18 篇

类型	阅读	条目
[自动] [BLOGS_PODCASTS]	4min	mic 基于 veRL 与 Ray 在 SageMaker 上训练 CodeFu-7B 模型 02-26 veRL Ray SageMaker
[自动] [BLOGS_PODCASTS]	4min	mic 在 Amazon SageMaker 上使用 veRL 与 Ray 训练 CodeFu-7B 模型 02-26 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]	5min	mic 在 Amazon SageMaker 上使用 veRL 与 Ray 训练 CodeFu-7B 模型 02-26 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]	5min	mic 基于 veRL 在 SageMaker 与 Ray 上训练 CodeFu-7B 模型 02-25 veRL SageMaker Ray
[自动] [BLOGS_PODCASTS]	5min	mic 使用 veRL 和 Ray 在 SageMaker 上训练 CodeFu-7B 模型 02-25 veRL Ray SageMaker
[自动] [BLOGS_PODCASTS]	5min	mic 基于veRL与Ray在SageMaker上训练CodeFu-7B模型 02-25 veRL Ray SageMaker
[自动] [BLOGS_PODCASTS]	5min	mic 在 Amazon SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 模型 02-25 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]	5min	mic 使用 veRL 和 Ray 在 SageMaker 上训练 CodeFu-7B 模型 02-25 SageMaker Ray veRL
[自动] [BLOGS_PODCASTS]	5min	mic 在 SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 02-25 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]	5min	mic 在 Amazon SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 模型 02-25 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]	5min	mic 在 Amazon SageMaker 上使用 veRL 和 Ray 训练 CodeFu-7B 模型 02-24 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]	5min	mic 在 SageMaker 上利用 veRL 与 Ray 训练 CodeFu-7B 02-24 LLM SageMaker Ray
[自动] [BLOGS_PODCASTS]	6min	mic 使用veRL和Ray在SageMaker上训练CodeFu-7B模型 02-24 SageMaker veRL Ray
[自动] [ARXIV]	4min	school 用于软优势策略优化的平滑门函数 02-24 强化学习 GRPO SAPO
[自动] [ARXIV]	5min	school Soft Sequence Policy Optimization：连接GMPO与SAPO 02-24 SSPO LLM对齐强化学习
[自动] [ARXIV]	4min	school 过程监督多智能体强化学习提升临床推理可靠性 02-17 多智能体强化学习临床推理
[自动] [ARXIV]	5min	school 基于枢纽重采样的LLM强化学习深度密集探索 02-17 LLM 强化学习 RLHF
[自动] [ARXIV]	4min	school 受限群组相对策略优化 02-06 GRPO 强化学习策略优化

2026年一月 3 篇

类型	阅读	条目
[自动] [ARXIV]	4min	school 进化策略导致大语言模型出现灾难性遗忘 01-30 进化策略灾难性遗忘持续学习
[自动] [ARXIV]	4min	school 进化策略导致大语言模型出现灾难性遗忘 01-29 进化策略灾难性遗忘持续学习
[自动] [BLOGS_PODCASTS]	3min	mic 🔥实战复盘：解锁GPT-OSS的智能体RL训练秘籍！ 01-28 强化学习智能体 Llama