RLHF

条目：80

2026年四月 1 篇

类型	阅读	条目
[自动] [JUEJIN]	1min	sticky_note_2 大模型输出的“隐性结构塌缩”问题及对策 04-19 模型输出结构塌缩输出质量

2026年三月 23 篇

类型	阅读	条目
[自动] [ARXIV]	3min	school Visual-ERM：面向视觉等价性的奖励建模 03-17 Visual-ERM 视觉奖励模型 LVLM
[自动] [ARXIV]	3min	school PhysMoDPO：基于偏好优化的人形机器人物理逼真运动生成 03-17 人形机器人运动控制 DPO
[自动] [ARXIV]	3min	school Visual-ERM：视觉等效性奖励建模方法 03-16 Visual-ERM 奖励模型 RLHF
[自动] [ARXIV]	3min	school 探究推理模型作为裁判在非可验证LLM后训练中的作用 03-16 LLM 后训练 LLM-as-Judge
[自动] [ARXIV]	3min	school 基于能量函数的语言模型特征匹配微调方法 03-16 LLM 微调能量函数
[自动] [ARXIV]	3min	school 探究推理模型作为裁判在非可验证LLM后训练中的表现 03-15 LLM RLHF 强化学习
[自动] [ARXIV]	3min	school 基于能量的语言模型微调：匹配特征而非词元 03-15 微调能量模型特征匹配
[自动] [ARXIV]	3min	school 探究非可验证LLM后训练中的推理模型评判机制 03-14 LLM RLHF 强化学习
[自动] [ARXIV]	3min	school 基于能量函数的语言模型特征级微调方法 03-14 LLM 微调 EBFT
[自动] [ARXIV]	3min	school 探究推理LLM作为非可验证后训练评估器的有效性 03-13 LLM-as-Judge RLHF 强化学习
[自动] [BLOGS_PODCASTS]	2min	mic 16个开源RL库的经验总结：保持Token流动 03-11 RLHF 强化学习开源库
[自动] [BLOGS_PODCASTS]	2min	mic 16个开源强化学习库的实践经验与启示 03-11 强化学习 RL 开源库
[自动] [BLOGS_PODCASTS]	2min	mic 基于16个开源RL库的Token流生成经验总结 03-11 RLHF 强化学习 LLM
[自动] [BLOGS_PODCASTS]	2min	mic 16个开源强化学习库的实践经验总结 03-11 强化学习 RL 开源库
[自动] [ARXIV]	4min	school Agentic Critical Training：基于批判性反馈的大模型推理能力提升机制 03-11 Agentic AI 强化学习推理能力
[自动] [BLOGS_PODCASTS]	2min	mic 从16个开源强化学习库中总结的Token流优化经验 03-10 强化学习 RLHF Token流
[自动] [BLOGS_PODCASTS]	2min	mic 16个开源RL库经验总结：维持Token流的关键 03-10 RLHF 强化学习开源库
[自动] [BLOGS_PODCASTS]	2min	mic 基于16个开源RL库的Token流生成经验总结 03-10 RLHF 强化学习开源库
[自动] [BLOGS_PODCASTS]	2min	mic 16个开源强化学习库的经验总结与启示 03-10 强化学习 RL 开源库
[自动] [BLOGS_PODCASTS]	2min	mic 16个开源强化学习库的实践经验与启示 03-10 强化学习 RL 开源库
[自动] [ARXIV]	3min	school 迈向偏差可控的LLM评判器：基于有界评估的无偏验证 03-08 LLM-as-a-Judge 偏见控制模型评估
[自动] [ARXIV]	3min	school 基于内部激活监测生成过程中的突发奖励黑客行为 03-05 Reward Hacking 内部激活 Sparse Autoencoders
[自动] [BLOGS_PODCASTS]	3min	mic Amazon Nova 强化微调原理、应用场景与实现选项解析 03-01 Amazon Nova 强化微调 RFT

2026年二月 52 篇

类型	阅读	条目
[自动] [BLOGS_PODCASTS]	3min	mic Amazon Nova 强化微调：原理、应用场景与实现指南 02-28 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]	2min	mic Amazon Nova 强化微调原理：从评估学习到多轮智能体构建 02-27 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]	3min	mic Amazon Nova 强化微调原理、应用场景与实现选项解析 02-27 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]	2min	mic Amazon Nova 强化微调：原理、场景与实现指南 02-27 Amazon Nova 强化微调 RFT
[自动] [ARXIV]	3min	school 基于优化的系统为何难以实现规范响应：代理与架构限制 02-27 RLHF AI对齐智能体
[自动] [BLOGS_PODCASTS]	2min	mic Anthropic 模型蒸馏与 SWE-Bench 作弊机制分析 02-27 模型蒸馏 SWE-bench 奖励黑客
[自动] [BLOGS_PODCASTS]	2min	mic Amazon Nova 强化微调解析：原理、应用场景与实现指南 02-26 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]	4min	mic 基于 veRL 与 Ray 在 SageMaker 上训练 CodeFu-7B 模型 02-26 veRL Ray SageMaker
[自动] [BLOGS_PODCASTS]	4min	mic 在 Amazon SageMaker 上使用 veRL 与 Ray 训练 CodeFu-7B 模型 02-26 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]	5min	mic 在 Amazon SageMaker 上使用 veRL 与 Ray 训练 CodeFu-7B 模型 02-26 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]	4min	mic 基于 veRL 在 SageMaker 与 Ray 上训练 CodeFu-7B 模型 02-25 veRL SageMaker Ray
[自动] [BLOGS_PODCASTS]	3min	mic 数十场中型发布会背后的共同主题：形成闭环 02-25 闭环数据飞轮合成数据
[自动] [BLOGS_PODCASTS]	5min	mic 基于veRL与Ray在SageMaker上训练CodeFu-7B模型 02-25 veRL Ray SageMaker
[自动] [BLOGS_PODCASTS]	5min	mic 使用 veRL 和 Ray 在 SageMaker 上训练 CodeFu-7B 模型 02-25 SageMaker Ray veRL
[自动] [BLOGS_PODCASTS]	5min	mic 使用veRL和Ray在SageMaker上训练CodeFu-7B模型 02-24 SageMaker veRL Ray
[自动] [JUEJIN]	1min	sticky_note_2 大模型开发演进：从ChatGPT到多模态与A2A协作 02-24 LLM ChatGPT 多模态
[自动] [ARXIV]	3min	school 用于软优势策略优化的平滑门函数 02-24 强化学习 GRPO SAPO
[自动] [ARXIV]	4min	school MARS：基于边界感知与自我优化的奖励建模 02-23 RLHF 奖励模型 MARS
[自动] [ARXIV]	4min	school MARS：基于边距感知奖励建模与自我精炼 02-22 MARS RLHF Reward Model
[自动] [ARXIV]	4min	school MMARS：基于边际感知与自我精炼的奖励建模 02-21 RLHF 奖励建模数据增强
[自动] [ARXIV]	4min	school MARS：基于边际感知与自我精炼的奖励建模 02-20 MARS RLHF 奖励模型
[自动] [ARXIV]	4min	school 强化快速权重与下一序列预测 02-19 REFINE 快速权重强化学习
[自动] [ARXIV]	5min	school 基于枢纽重采样的LLM强化学习深度密集探索 02-17 LLM 强化学习 RLHF
[自动] [ARXIV]	5min	school CM2：基于清单奖励强化学习的多步智能体工具调用 02-16 强化学习 Agent 工具调用
[自动] [ARXIV]	3min	school CM2：基于清单奖励强化学习的多步智能体工具调用 02-15 CM2 强化学习 Agent
[自动] [ARXIV]	6min	school CM2：基于清单奖励强化学习的多轮多步智能体工具调用 02-13 强化学习 Agent 工具调用
[自动] [ARXIV]	3min	school 能力导向训练引发大模型对齐风险研究 02-13 AI对齐强化学习奖励黑客
[自动] [ARXIV]	4min	school 基于奖励外推的广义在线策略蒸馏算法 02-13 LLM 强化学习知识蒸馏
[自动] [ARXIV]	4min	school P-GenRM：个性化生成式奖励模型与基于用户的测试时缩放 02-13 P-GenRM 个性化对齐奖励模型
[自动] [ARXIV]	4min	school 超越VLM奖励：扩散原生潜在奖励建模 02-13 扩散模型 DiNa-LRM 奖励建模
[自动] [HACKER_NEWS]	4min	newspaper 基于人类反馈的强化学习：原理与应用 02-07 RLHF 强化学习人类反馈
[自动] [HACKER_NEWS]	4min	newspaper 基于人类反馈的强化学习原理与应用 02-07 RLHF 强化学习人类反馈
[自动] [HACKER_NEWS]	5min	newspaper 基于人类反馈的强化学习：原理与应用 02-07 RLHF 强化学习人类反馈
[自动] [HACKER_NEWS]	7min	newspaper 基于人类反馈的强化学习机制解析 02-07 RLHF 强化学习人类反馈
[自动] [ARXIV]	4min	school 重新思考大模型强化学习中的信任区域机制 02-06 强化学习 LLM PPO
[自动] [ARXIV]	4min	school 强化注意力学习：通过奖励机制优化视觉注意力模型 02-06 强化学习多模态注意力机制
[自动] [ARXIV]	5min	school 重新思考大模型强化学习中的信任区域 02-05 RLHF PPO 强化学习
[自动] [ARXIV]	4min	school 强化注意力学习：基于奖励反馈的注意力机制优化方法 02-05 强化学习注意力机制多模态
[自动] [ARXIV]	4min	school 基于急停干预的鲁棒干预学习 02-05 干预学习自动驾驶鲁棒性
[自动] [BLOGS_PODCASTS]	3min	mic 2026年AI展望：大模型、智能体与算力趋势 02-04 LLM 智能体 Scaling Laws
[自动] [ARXIV]	4min	school 通过文本反馈扩展强化学习的能力边界 02-04 强化学习 RLHF 文本反馈
[自动] [ARXIV]	4min	school RLAnything：构建完全动态强化学习系统环境与模型 02-04 RLAnything 强化学习 LLM
[自动] [ARXIV]	4min	school 无奖励对齐技术处理多目标冲突 02-03 RACO 对齐技术多目标优化
[自动] [ARXIV]	4min	school 基于文本反馈扩展强化学习的能力 02-03 强化学习 RLHF 文本反馈
[自动] [ARXIV]	4min	school RLAnything：完全动态强化学习系统构建环境、策略与奖励模型 02-03 强化学习 RL LLM
[自动] [BLOGS_PODCASTS]	3min	mic 2026年AI展望：LLM、智能体、缩放定律与中国发展 02-03 LLM 智能体缩放定律
[自动] [BLOGS_PODCASTS]	4min	mic 2026年AI展望：LLM、智能体、算力与AGI发展路径 02-03 LLM AGI 智能体
[自动] [HACKER_NEWS]	3min	newspaper 训练万亿参数模型使其具备幽默感 02-03 LLM 幽默感万亿参数
[自动] [ARXIV]	3min	school 研究揭示RLHF如何加剧大模型谄媚行为 02-03 RLHF 谄媚行为模型偏见
[自动] [BLOGS_PODCASTS]	4min	mic 2026年AI展望：LLM、智能体、算力与Scaling Laws 02-02 LLM 智能体 Scaling Laws
[自动] [ARXIV]	3min	school 推理大语言模型从被动求解转向主动询问 02-01 推理交互式推理 PIR
[自动] [ARXIV]	4min	school 探索面向智能体的推理奖励模型 02-01 Agent RLHF 奖励模型

2026年一月 4 篇

类型	阅读	条目
[自动] [ARXIV]	3min	school 推理大模型从被动求解转向主动提问 01-30 推理模型主动交互思维链
[自动] [BLOGS_PODCASTS]	3min	mic 🔥实战复盘：解锁GPT-OSS的智能体RL训练秘籍！ 01-28 强化学习智能体 Llama
[自动] [ARXIV]	5min	school 🔥POPE：利用特权探索破解硬核难题！ 01-28 POPE 强化学习 LLM
[自动] [BLOGS_PODCASTS]	3min	mic 🚀GPT-OSS智能体RL训练解密！从0到1实战复盘🔥 01-27 强化学习 Agent GPT-OSS