terminal

AI Stack

rss_feed
SYS_STABLE
目录

后训练

条目:13
2026年三月 5 篇
类型阅读条目
[自动] [ARXIV]
3minschool 探究推理模型作为裁判在非可验证LLM后训练中的作用
03-16 LLM 后训练 LLM-as-Judge
[自动] [ARXIV]
3minschool 探究推理模型作为裁判在非可验证LLM后训练中的表现
03-15 LLM RLHF 强化学习
[自动] [ARXIV]
3minschool 探究非可验证LLM后训练中的推理模型评判机制
03-14 LLM RLHF 强化学习
[自动] [ARXIV]
3minschool 探究推理LLM作为非可验证后训练评估器的有效性
03-13 LLM-as-Judge RLHF 强化学习
[自动] [ARXIV]
3minschool CHIMERA:用于提升大模型推理泛化能力的紧凑合成数据
03-03 LLM 合成数据 思维链
2026年二月 6 篇
类型阅读条目
[自动] [ARXIV]
4minschool 为何LLM后训练中Pass@k优化会降低Pass@1性能
02-26 LLM 后训练 Pass@k
[自动] [ARXIV]
5minschool 为何Pass@k优化会降低Pass@1:大模型后训练中的提示干扰
02-25 LLM 后训练 代码生成
[自动] [BLOGS_PODCASTS]
3minmic 2026年AI趋势展望:LLM、智能体、算力与AGI发展路径
02-04 LLM 智能体 AGI
[自动] [BLOGS_PODCASTS]
3minmic 2026年AI展望:LLM、智能体、扩展定律与中国角色
02-03 LLM Scaling Laws 智能体
[自动] [BLOGS_PODCASTS]
4minmic 2026年AI展望:LLM、智能体、算力与Scaling Laws
02-02 LLM 智能体 Scaling Laws
[自动] [BLOGS_PODCASTS]
3minmic 2026年AI展望:LLM、智能体、扩展定律与中国角色
02-02 LLM 智能体 扩展定律
2026年一月 2 篇
类型阅读条目
[自动] [ARXIV]
4minschool 后训练公平性控制:推荐系统动态公平性单训练框架
01-30 推荐系统 公平性 Cofair
[自动] [ARXIV]
4minschool 后训练公平性控制:推荐系统动态公平性单训练框架
01-29 推荐系统 公平性 Cofair