目录
Reward Hacking
条目:3
2026年三月
2 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 3min | school
探究推理LLM作为非可验证后训练评估器的有效性 03-13
LLM-as-Judge
RLHF
强化学习 |
[自动]
[ARXIV] | 3min | school
基于内部激活监测生成过程中的突发奖励黑客行为 03-05
Reward Hacking
内部激活
Sparse Autoencoders |
2026年一月
1 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 4min | mic
揭秘Agentic RL训练!GPT-OSS实战回顾,核心干货🔥 01-27
Agentic RL
强化学习
GPT-OSS |
无匹配条目