目录
MCTS
条目:5
2026年三月
4 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 1min | newspaper
基于PPO的树搜索蒸馏优化语言模型 03-15
PPO
强化学习
模型蒸馏 |
[自动]
[HACKER_NEWS] | 1min | newspaper
基于PPO的树搜索蒸馏技术优化语言模型 03-15
PPO
树搜索
模型蒸馏 |
[自动]
[HACKER_NEWS] | 1min | newspaper
基于PPO的树搜索蒸馏优化语言模型 03-15
PPO
强化学习
树搜索 |
[自动]
[HACKER_NEWS] | 1min | newspaper
基于PPO的树搜索蒸馏技术优化语言模型 03-15
PPO
强化学习
树搜索 |
2026年一月
1 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 3min | mic
Unlocking Agentic RL Training for GPT-OSS: A Practical Retrospective 01-27
Agentic RL
强化学习
GPT-OSS |
无匹配条目