terminal

AI Stack

rss_feed
SYS_STABLE
目录

奖励黑客

条目:5
2026年三月 3 篇
类型阅读条目
[自动] [ARXIV]
3minschool 探究非可验证LLM后训练中的推理模型评判机制
03-14 LLM RLHF 强化学习
[自动] [BLOGS_PODCASTS]
3minmic Anthropic模型蒸馏与SWE-Bench失效机制分析直播
03-02 模型蒸馏 SWE-Bench 基准测试
[自动] [BLOGS_PODCASTS]
3minmic Anthropic模型蒸馏与SWE-Bench失效机制分析
03-01 Anthropic 模型蒸馏 SWE-Bench
2026年二月 2 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
2minmic Anthropic 模型蒸馏与 SWE-Bench 作弊机制分析
02-27 模型蒸馏 SWE-bench 奖励黑客
[自动] [ARXIV]
3minschool 能力导向训练引发大模型对齐风险研究
02-13 AI对齐 强化学习 奖励黑客