RLHF

条目：57

2026年三月 1 篇

类型	阅读	条目
[自动] [BLOGS_PODCASTS]	3min	mic Amazon Nova 强化微调原理、应用场景与实现选项解析 03-01 Amazon Nova 强化微调 RFT

2026年二月 52 篇

类型	阅读	条目
[自动] [BLOGS_PODCASTS]	3min	mic Amazon Nova 强化微调：原理、应用场景与实现指南 02-28 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]	2min	mic Amazon Nova 强化微调原理：从评估学习到多轮智能体构建 02-27 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]	3min	mic Amazon Nova 强化微调原理、应用场景与实现选项解析 02-27 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]	3min	mic Amazon Nova 强化微调：原理、场景与实现指南 02-27 Amazon Nova 强化微调 RFT
[自动] [ARXIV]	3min	school 基于优化的系统为何难以实现规范响应：代理与架构限制 02-27 RLHF AI对齐智能体
[自动] [BLOGS_PODCASTS]	2min	mic Anthropic 模型蒸馏与 SWE-Bench 作弊机制分析 02-27 模型蒸馏 SWE-bench 奖励黑客
[自动] [BLOGS_PODCASTS]	2min	mic Amazon Nova 强化微调解析：原理、应用场景与实现指南 02-26 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]	4min	mic 基于 veRL 与 Ray 在 SageMaker 上训练 CodeFu-7B 模型 02-26 veRL Ray SageMaker
[自动] [BLOGS_PODCASTS]	4min	mic 在 Amazon SageMaker 上使用 veRL 与 Ray 训练 CodeFu-7B 模型 02-26 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]	5min	mic 在 Amazon SageMaker 上使用 veRL 与 Ray 训练 CodeFu-7B 模型 02-26 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]	5min	mic 基于 veRL 在 SageMaker 与 Ray 上训练 CodeFu-7B 模型 02-25 veRL SageMaker Ray
[自动] [BLOGS_PODCASTS]	3min	mic 数十场中型发布会背后的共同主题：形成闭环 02-25 闭环数据飞轮合成数据
[自动] [BLOGS_PODCASTS]	5min	mic 基于veRL与Ray在SageMaker上训练CodeFu-7B模型 02-25 veRL Ray SageMaker
[自动] [BLOGS_PODCASTS]	5min	mic 使用 veRL 和 Ray 在 SageMaker 上训练 CodeFu-7B 模型 02-25 SageMaker Ray veRL
[自动] [BLOGS_PODCASTS]	6min	mic 使用veRL和Ray在SageMaker上训练CodeFu-7B模型 02-24 SageMaker veRL Ray
[自动] [JUEJIN]	2min	sticky_note_2 大模型开发演进：从ChatGPT到多模态与A2A协作 02-24 LLM ChatGPT 多模态
[自动] [ARXIV]	4min	school 用于软优势策略优化的平滑门函数 02-24 强化学习 GRPO SAPO
[自动] [ARXIV]	4min	school MARS：基于边界感知与自我优化的奖励建模 02-23 RLHF 奖励模型 MARS
[自动] [ARXIV]	4min	school MARS：基于边距感知奖励建模与自我精炼 02-22 MARS RLHF Reward Model
[自动] [ARXIV]	5min	school MMARS：基于边际感知与自我精炼的奖励建模 02-21 RLHF 奖励建模数据增强
[自动] [ARXIV]	5min	school MARS：基于边际感知与自我精炼的奖励建模 02-20 MARS RLHF 奖励模型
[自动] [ARXIV]	4min	school 强化快速权重与下一序列预测 02-19 REFINE 快速权重强化学习
[自动] [ARXIV]	5min	school 基于枢纽重采样的LLM强化学习深度密集探索 02-17 LLM 强化学习 RLHF
[自动] [ARXIV]	5min	school CM2：基于清单奖励强化学习的多步智能体工具调用 02-16 强化学习 Agent 工具调用
[自动] [ARXIV]	4min	school CM2：基于清单奖励强化学习的多步智能体工具调用 02-15 CM2 强化学习 Agent
[自动] [ARXIV]	6min	school CM2：基于清单奖励强化学习的多轮多步智能体工具调用 02-13 强化学习 Agent 工具调用
[自动] [ARXIV]	3min	school 能力导向训练引发大模型对齐风险研究 02-13 AI对齐强化学习奖励黑客
[自动] [ARXIV]	4min	school 基于奖励外推的广义在线策略蒸馏算法 02-13 LLM 强化学习知识蒸馏
[自动] [ARXIV]	4min	school P-GenRM：个性化生成式奖励模型与基于用户的测试时缩放 02-13 P-GenRM 个性化对齐奖励模型
[自动] [ARXIV]	4min	school 超越VLM奖励：扩散原生潜在奖励建模 02-13 扩散模型 DiNa-LRM 奖励建模
[自动] [HACKER_NEWS]	4min	newspaper 基于人类反馈的强化学习：原理与应用 02-07 RLHF 强化学习人类反馈
[自动] [HACKER_NEWS]	5min	newspaper 基于人类反馈的强化学习原理与应用 02-07 RLHF 强化学习人类反馈
[自动] [HACKER_NEWS]	5min	newspaper 基于人类反馈的强化学习：原理与应用 02-07 RLHF 强化学习人类反馈
[自动] [HACKER_NEWS]	7min	newspaper 基于人类反馈的强化学习机制解析 02-07 RLHF 强化学习人类反馈
[自动] [ARXIV]	4min	school 重新思考大模型强化学习中的信任区域机制 02-06 强化学习 LLM PPO
[自动] [ARXIV]	4min	school 强化注意力学习：通过奖励机制优化视觉注意力模型 02-06 强化学习多模态注意力机制
[自动] [ARXIV]	5min	school 重新思考大模型强化学习中的信任区域 02-05 RLHF PPO 强化学习
[自动] [ARXIV]	4min	school 强化注意力学习：基于奖励反馈的注意力机制优化方法 02-05 强化学习注意力机制多模态
[自动] [ARXIV]	4min	school 基于急停干预的鲁棒干预学习 02-05 干预学习自动驾驶鲁棒性
[自动] [BLOGS_PODCASTS]	3min	mic 2026年AI展望：大模型、智能体与算力趋势 02-04 LLM 智能体 Scaling Laws
[自动] [ARXIV]	4min	school 通过文本反馈扩展强化学习的能力边界 02-04 强化学习 RLHF 文本反馈
[自动] [ARXIV]	4min	school RLAnything：构建完全动态强化学习系统环境与模型 02-04 RLAnything 强化学习 LLM
[自动] [ARXIV]	4min	school 无奖励对齐技术处理多目标冲突 02-03 RACO 对齐技术多目标优化
[自动] [ARXIV]	4min	school 基于文本反馈扩展强化学习的能力 02-03 强化学习 RLHF 文本反馈
[自动] [ARXIV]	4min	school RLAnything：完全动态强化学习系统构建环境、策略与奖励模型 02-03 强化学习 RL LLM
[自动] [BLOGS_PODCASTS]	3min	mic 2026年AI展望：LLM、智能体、缩放定律与中国发展 02-03 LLM 智能体缩放定律
[自动] [BLOGS_PODCASTS]	4min	mic 2026年AI展望：LLM、智能体、算力与AGI发展路径 02-03 LLM AGI 智能体
[自动] [HACKER_NEWS]	3min	newspaper 训练万亿参数模型使其具备幽默感 02-03 LLM 幽默感万亿参数
[自动] [ARXIV]	3min	school 研究揭示RLHF如何加剧大模型谄媚行为 02-03 RLHF 谄媚行为模型偏见
[自动] [BLOGS_PODCASTS]	4min	mic 2026年AI展望：LLM、智能体、算力与Scaling Laws 02-02 LLM 智能体 Scaling Laws
[自动] [ARXIV]	3min	school 推理大语言模型从被动求解转向主动询问 02-01 推理交互式推理 PIR
[自动] [ARXIV]	4min	school 探索面向智能体的推理奖励模型 02-01 Agent RLHF 奖励模型

2026年一月 4 篇

类型	阅读	条目
[自动] [ARXIV]	4min	school 推理大模型从被动求解转向主动提问 01-30 推理模型主动交互思维链
[自动] [BLOGS_PODCASTS]	3min	mic 🔥实战复盘：解锁GPT-OSS的智能体RL训练秘籍！ 01-28 强化学习智能体 Llama
[自动] [ARXIV]	5min	school 🔥POPE：利用特权探索破解硬核难题！ 01-28 POPE 强化学习 LLM
[自动] [BLOGS_PODCASTS]	3min	mic 🚀GPT-OSS智能体RL训练解密！从0到1实战复盘🔥 01-27 强化学习 Agent GPT-OSS