terminal

AI Stack

rss_feed
SYS_STABLE
目录

MCTS

条目:5
2026年三月 4 篇
类型阅读条目
[自动] [HACKER_NEWS]
1minnewspaper 基于PPO的树搜索蒸馏优化语言模型
03-15 PPO 强化学习 模型蒸馏
[自动] [HACKER_NEWS]
1minnewspaper 基于PPO的树搜索蒸馏技术优化语言模型
03-15 PPO 树搜索 模型蒸馏
[自动] [HACKER_NEWS]
1minnewspaper 基于PPO的树搜索蒸馏优化语言模型
03-15 PPO 强化学习 树搜索
[自动] [HACKER_NEWS]
1minnewspaper 基于PPO的树搜索蒸馏技术优化语言模型
03-15 PPO 强化学习 树搜索
2026年一月 1 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
3minmic Unlocking Agentic RL Training for GPT-OSS: A Practical Retrospective
01-27 Agentic RL 强化学习 GPT-OSS