terminal

AI Stack

rss_feed
SYS_STABLE
目录

RLHF

条目:79
2026年三月 23 篇
类型阅读条目
[自动] [ARXIV]
3minschool Visual-ERM:面向视觉等价性的奖励建模
03-17 Visual-ERM 视觉奖励模型 LVLM
[自动] [ARXIV]
3minschool PhysMoDPO:基于偏好优化的人形机器人物理逼真运动生成
03-17 人形机器人 运动控制 DPO
[自动] [ARXIV]
3minschool Visual-ERM:视觉等效性奖励建模方法
03-16 Visual-ERM 奖励模型 RLHF
[自动] [ARXIV]
3minschool 探究推理模型作为裁判在非可验证LLM后训练中的作用
03-16 LLM 后训练 LLM-as-Judge
[自动] [ARXIV]
3minschool 基于能量函数的语言模型特征匹配微调方法
03-16 LLM 微调 能量函数
[自动] [ARXIV]
3minschool 探究推理模型作为裁判在非可验证LLM后训练中的表现
03-15 LLM RLHF 强化学习
[自动] [ARXIV]
3minschool 基于能量的语言模型微调:匹配特征而非词元
03-15 微调 能量模型 特征匹配
[自动] [ARXIV]
3minschool 探究非可验证LLM后训练中的推理模型评判机制
03-14 LLM RLHF 强化学习
[自动] [ARXIV]
3minschool 基于能量函数的语言模型特征级微调方法
03-14 LLM 微调 EBFT
[自动] [ARXIV]
3minschool 探究推理LLM作为非可验证后训练评估器的有效性
03-13 LLM-as-Judge RLHF 强化学习
[自动] [BLOGS_PODCASTS]
2minmic 16个开源RL库的经验总结:保持Token流动
03-11 RLHF 强化学习 开源库
[自动] [BLOGS_PODCASTS]
2minmic 16个开源强化学习库的实践经验与启示
03-11 强化学习 RL 开源库
[自动] [BLOGS_PODCASTS]
2minmic 基于16个开源RL库的Token流生成经验总结
03-11 RLHF 强化学习 LLM
[自动] [BLOGS_PODCASTS]
2minmic 16个开源强化学习库的实践经验总结
03-11 强化学习 RL 开源库
[自动] [ARXIV]
4minschool Agentic Critical Training:基于批判性反馈的大模型推理能力提升机制
03-11 Agentic AI 强化学习 推理能力
[自动] [BLOGS_PODCASTS]
2minmic 从16个开源强化学习库中总结的Token流优化经验
03-10 强化学习 RLHF Token流
[自动] [BLOGS_PODCASTS]
2minmic 16个开源RL库经验总结:维持Token流的关键
03-10 RLHF 强化学习 开源库
[自动] [BLOGS_PODCASTS]
2minmic 基于16个开源RL库的Token流生成经验总结
03-10 RLHF 强化学习 开源库
[自动] [BLOGS_PODCASTS]
2minmic 16个开源强化学习库的经验总结与启示
03-10 强化学习 RL 开源库
[自动] [BLOGS_PODCASTS]
2minmic 16个开源强化学习库的实践经验与启示
03-10 强化学习 RL 开源库
[自动] [ARXIV]
3minschool 迈向偏差可控的LLM评判器:基于有界评估的无偏验证
03-08 LLM-as-a-Judge 偏见控制 模型评估
[自动] [ARXIV]
3minschool 基于内部激活监测生成过程中的突发奖励黑客行为
03-05 Reward Hacking 内部激活 Sparse Autoencoders
[自动] [BLOGS_PODCASTS]
3minmic Amazon Nova 强化微调原理、应用场景与实现选项解析
03-01 Amazon Nova 强化微调 RFT
2026年二月 52 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
3minmic Amazon Nova 强化微调:原理、应用场景与实现指南
02-28 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]
2minmic Amazon Nova 强化微调原理:从评估学习到多轮智能体构建
02-27 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]
3minmic Amazon Nova 强化微调原理、应用场景与实现选项解析
02-27 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]
2minmic Amazon Nova 强化微调:原理、场景与实现指南
02-27 Amazon Nova 强化微调 RFT
[自动] [ARXIV]
3minschool 基于优化的系统为何难以实现规范响应:代理与架构限制
02-27 RLHF AI对齐 智能体
[自动] [BLOGS_PODCASTS]
2minmic Anthropic 模型蒸馏与 SWE-Bench 作弊机制分析
02-27 模型蒸馏 SWE-bench 奖励黑客
[自动] [BLOGS_PODCASTS]
2minmic Amazon Nova 强化微调解析:原理、应用场景与实现指南
02-26 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]
4minmic 基于 veRL 与 Ray 在 SageMaker 上训练 CodeFu-7B 模型
02-26 veRL Ray SageMaker
[自动] [BLOGS_PODCASTS]
4minmic 在 Amazon SageMaker 上使用 veRL 与 Ray 训练 CodeFu-7B 模型
02-26 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]
5minmic 在 Amazon SageMaker 上使用 veRL 与 Ray 训练 CodeFu-7B 模型
02-26 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]
4minmic 基于 veRL 在 SageMaker 与 Ray 上训练 CodeFu-7B 模型
02-25 veRL SageMaker Ray
[自动] [BLOGS_PODCASTS]
3minmic 数十场中型发布会背后的共同主题:形成闭环
02-25 闭环 数据飞轮 合成数据
[自动] [BLOGS_PODCASTS]
5minmic 基于veRL与Ray在SageMaker上训练CodeFu-7B模型
02-25 veRL Ray SageMaker
[自动] [BLOGS_PODCASTS]
5minmic 使用 veRL 和 Ray 在 SageMaker 上训练 CodeFu-7B 模型
02-25 SageMaker Ray veRL
[自动] [BLOGS_PODCASTS]
5minmic 使用veRL和Ray在SageMaker上训练CodeFu-7B模型
02-24 SageMaker veRL Ray
[自动] [JUEJIN]
1minsticky_note_2 大模型开发演进:从ChatGPT到多模态与A2A协作
02-24 LLM ChatGPT 多模态
[自动] [ARXIV]
3minschool 用于软优势策略优化的平滑门函数
02-24 强化学习 GRPO SAPO
[自动] [ARXIV]
4minschool MARS:基于边界感知与自我优化的奖励建模
02-23 RLHF 奖励模型 MARS
[自动] [ARXIV]
4minschool MARS:基于边距感知奖励建模与自我精炼
02-22 MARS RLHF Reward Model
[自动] [ARXIV]
4minschool MMARS:基于边际感知与自我精炼的奖励建模
02-21 RLHF 奖励建模 数据增强
[自动] [ARXIV]
4minschool MARS:基于边际感知与自我精炼的奖励建模
02-20 MARS RLHF 奖励模型
[自动] [ARXIV]
4minschool 强化快速权重与下一序列预测
02-19 REFINE 快速权重 强化学习
[自动] [ARXIV]
5minschool 基于枢纽重采样的LLM强化学习深度密集探索
02-17 LLM 强化学习 RLHF
[自动] [ARXIV]
5minschool CM2:基于清单奖励强化学习的多步智能体工具调用
02-16 强化学习 Agent 工具调用
[自动] [ARXIV]
3minschool CM2:基于清单奖励强化学习的多步智能体工具调用
02-15 CM2 强化学习 Agent
[自动] [ARXIV]
6minschool CM2:基于清单奖励强化学习的多轮多步智能体工具调用
02-13 强化学习 Agent 工具调用
[自动] [ARXIV]
3minschool 能力导向训练引发大模型对齐风险研究
02-13 AI对齐 强化学习 奖励黑客
[自动] [ARXIV]
4minschool 基于奖励外推的广义在线策略蒸馏算法
02-13 LLM 强化学习 知识蒸馏
[自动] [ARXIV]
4minschool P-GenRM:个性化生成式奖励模型与基于用户的测试时缩放
02-13 P-GenRM 个性化对齐 奖励模型
[自动] [ARXIV]
4minschool 超越VLM奖励:扩散原生潜在奖励建模
02-13 扩散模型 DiNa-LRM 奖励建模
[自动] [HACKER_NEWS]
4minnewspaper 基于人类反馈的强化学习:原理与应用
02-07 RLHF 强化学习 人类反馈
[自动] [HACKER_NEWS]
4minnewspaper 基于人类反馈的强化学习原理与应用
02-07 RLHF 强化学习 人类反馈
[自动] [HACKER_NEWS]
5minnewspaper 基于人类反馈的强化学习:原理与应用
02-07 RLHF 强化学习 人类反馈
[自动] [HACKER_NEWS]
7minnewspaper 基于人类反馈的强化学习机制解析
02-07 RLHF 强化学习 人类反馈
[自动] [ARXIV]
4minschool 重新思考大模型强化学习中的信任区域机制
02-06 强化学习 LLM PPO
[自动] [ARXIV]
4minschool 强化注意力学习:通过奖励机制优化视觉注意力模型
02-06 强化学习 多模态 注意力机制
[自动] [ARXIV]
5minschool 重新思考大模型强化学习中的信任区域
02-05 RLHF PPO 强化学习
[自动] [ARXIV]
4minschool 强化注意力学习:基于奖励反馈的注意力机制优化方法
02-05 强化学习 注意力机制 多模态
[自动] [ARXIV]
4minschool 基于急停干预的鲁棒干预学习
02-05 干预学习 自动驾驶 鲁棒性
[自动] [BLOGS_PODCASTS]
3minmic 2026年AI展望:大模型、智能体与算力趋势
02-04 LLM 智能体 Scaling Laws
[自动] [ARXIV]
4minschool 通过文本反馈扩展强化学习的能力边界
02-04 强化学习 RLHF 文本反馈
[自动] [ARXIV]
4minschool RLAnything:构建完全动态强化学习系统环境与模型
02-04 RLAnything 强化学习 LLM
[自动] [ARXIV]
4minschool 无奖励对齐技术处理多目标冲突
02-03 RACO 对齐技术 多目标优化
[自动] [ARXIV]
4minschool 基于文本反馈扩展强化学习的能力
02-03 强化学习 RLHF 文本反馈
[自动] [ARXIV]
4minschool RLAnything:完全动态强化学习系统构建环境、策略与奖励模型
02-03 强化学习 RL LLM
[自动] [BLOGS_PODCASTS]
3minmic 2026年AI展望:LLM、智能体、缩放定律与中国发展
02-03 LLM 智能体 缩放定律
[自动] [BLOGS_PODCASTS]
4minmic 2026年AI展望:LLM、智能体、算力与AGI发展路径
02-03 LLM AGI 智能体
[自动] [HACKER_NEWS]
3minnewspaper 训练万亿参数模型使其具备幽默感
02-03 LLM 幽默感 万亿参数
[自动] [ARXIV]
3minschool 研究揭示RLHF如何加剧大模型谄媚行为
02-03 RLHF 谄媚行为 模型偏见
[自动] [BLOGS_PODCASTS]
4minmic 2026年AI展望:LLM、智能体、算力与Scaling Laws
02-02 LLM 智能体 Scaling Laws
[自动] [ARXIV]
3minschool 推理大语言模型从被动求解转向主动询问
02-01 推理 交互式推理 PIR
[自动] [ARXIV]
4minschool 探索面向智能体的推理奖励模型
02-01 Agent RLHF 奖励模型
2026年一月 4 篇
类型阅读条目
[自动] [ARXIV]
3minschool 推理大模型从被动求解转向主动提问
01-30 推理模型 主动交互 思维链
[自动] [BLOGS_PODCASTS]
3minmic 🔥实战复盘:解锁GPT-OSS的智能体RL训练秘籍!
01-28 强化学习 智能体 Llama
[自动] [ARXIV]
5minschool 🔥POPE:利用特权探索破解硬核难题!
01-28 POPE 强化学习 LLM
[自动] [BLOGS_PODCASTS]
3minmic 🚀GPT-OSS智能体RL训练解密!从0到1实战复盘🔥
01-27 强化学习 Agent GPT-OSS