目录
奖励黑客
条目:5
2026年三月
3 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 3min | school
探究非可验证LLM后训练中的推理模型评判机制 03-14
LLM
RLHF
强化学习 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic模型蒸馏与SWE-Bench失效机制分析直播 03-02
模型蒸馏
SWE-Bench
基准测试 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Anthropic模型蒸馏与SWE-Bench失效机制分析 03-01
Anthropic
模型蒸馏
SWE-Bench |
2026年二月
2 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 2min | mic
Anthropic 模型蒸馏与 SWE-Bench 作弊机制分析 02-27
模型蒸馏
SWE-bench
奖励黑客 |
[自动]
[ARXIV] | 3min | school
能力导向训练引发大模型对齐风险研究 02-13
AI对齐
强化学习
奖励黑客 |
无匹配条目