terminal

AI Stack

rss_feed
SYS_STABLE
目录

RLHF

条目:57
2026年三月 1 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
3minmic Amazon Nova 强化微调原理、应用场景与实现选项解析
03-01 Amazon Nova 强化微调 RFT
2026年二月 52 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
3minmic Amazon Nova 强化微调:原理、应用场景与实现指南
02-28 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]
2minmic Amazon Nova 强化微调原理:从评估学习到多轮智能体构建
02-27 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]
3minmic Amazon Nova 强化微调原理、应用场景与实现选项解析
02-27 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]
3minmic Amazon Nova 强化微调:原理、场景与实现指南
02-27 Amazon Nova 强化微调 RFT
[自动] [ARXIV]
3minschool 基于优化的系统为何难以实现规范响应:代理与架构限制
02-27 RLHF AI对齐 智能体
[自动] [BLOGS_PODCASTS]
2minmic Anthropic 模型蒸馏与 SWE-Bench 作弊机制分析
02-27 模型蒸馏 SWE-bench 奖励黑客
[自动] [BLOGS_PODCASTS]
2minmic Amazon Nova 强化微调解析:原理、应用场景与实现指南
02-26 Amazon Nova 强化微调 RFT
[自动] [BLOGS_PODCASTS]
4minmic 基于 veRL 与 Ray 在 SageMaker 上训练 CodeFu-7B 模型
02-26 veRL Ray SageMaker
[自动] [BLOGS_PODCASTS]
4minmic 在 Amazon SageMaker 上使用 veRL 与 Ray 训练 CodeFu-7B 模型
02-26 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]
5minmic 在 Amazon SageMaker 上使用 veRL 与 Ray 训练 CodeFu-7B 模型
02-26 SageMaker veRL Ray
[自动] [BLOGS_PODCASTS]
5minmic 基于 veRL 在 SageMaker 与 Ray 上训练 CodeFu-7B 模型
02-25 veRL SageMaker Ray
[自动] [BLOGS_PODCASTS]
3minmic 数十场中型发布会背后的共同主题:形成闭环
02-25 闭环 数据飞轮 合成数据
[自动] [BLOGS_PODCASTS]
5minmic 基于veRL与Ray在SageMaker上训练CodeFu-7B模型
02-25 veRL Ray SageMaker
[自动] [BLOGS_PODCASTS]
5minmic 使用 veRL 和 Ray 在 SageMaker 上训练 CodeFu-7B 模型
02-25 SageMaker Ray veRL
[自动] [BLOGS_PODCASTS]
6minmic 使用veRL和Ray在SageMaker上训练CodeFu-7B模型
02-24 SageMaker veRL Ray
[自动] [JUEJIN]
2minsticky_note_2 大模型开发演进:从ChatGPT到多模态与A2A协作
02-24 LLM ChatGPT 多模态
[自动] [ARXIV]
4minschool 用于软优势策略优化的平滑门函数
02-24 强化学习 GRPO SAPO
[自动] [ARXIV]
4minschool MARS:基于边界感知与自我优化的奖励建模
02-23 RLHF 奖励模型 MARS
[自动] [ARXIV]
4minschool MARS:基于边距感知奖励建模与自我精炼
02-22 MARS RLHF Reward Model
[自动] [ARXIV]
5minschool MMARS:基于边际感知与自我精炼的奖励建模
02-21 RLHF 奖励建模 数据增强
[自动] [ARXIV]
5minschool MARS:基于边际感知与自我精炼的奖励建模
02-20 MARS RLHF 奖励模型
[自动] [ARXIV]
4minschool 强化快速权重与下一序列预测
02-19 REFINE 快速权重 强化学习
[自动] [ARXIV]
5minschool 基于枢纽重采样的LLM强化学习深度密集探索
02-17 LLM 强化学习 RLHF
[自动] [ARXIV]
5minschool CM2:基于清单奖励强化学习的多步智能体工具调用
02-16 强化学习 Agent 工具调用
[自动] [ARXIV]
4minschool CM2:基于清单奖励强化学习的多步智能体工具调用
02-15 CM2 强化学习 Agent
[自动] [ARXIV]
6minschool CM2:基于清单奖励强化学习的多轮多步智能体工具调用
02-13 强化学习 Agent 工具调用
[自动] [ARXIV]
3minschool 能力导向训练引发大模型对齐风险研究
02-13 AI对齐 强化学习 奖励黑客
[自动] [ARXIV]
4minschool 基于奖励外推的广义在线策略蒸馏算法
02-13 LLM 强化学习 知识蒸馏
[自动] [ARXIV]
4minschool P-GenRM:个性化生成式奖励模型与基于用户的测试时缩放
02-13 P-GenRM 个性化对齐 奖励模型
[自动] [ARXIV]
4minschool 超越VLM奖励:扩散原生潜在奖励建模
02-13 扩散模型 DiNa-LRM 奖励建模
[自动] [HACKER_NEWS]
4minnewspaper 基于人类反馈的强化学习:原理与应用
02-07 RLHF 强化学习 人类反馈
[自动] [HACKER_NEWS]
5minnewspaper 基于人类反馈的强化学习原理与应用
02-07 RLHF 强化学习 人类反馈
[自动] [HACKER_NEWS]
5minnewspaper 基于人类反馈的强化学习:原理与应用
02-07 RLHF 强化学习 人类反馈
[自动] [HACKER_NEWS]
7minnewspaper 基于人类反馈的强化学习机制解析
02-07 RLHF 强化学习 人类反馈
[自动] [ARXIV]
4minschool 重新思考大模型强化学习中的信任区域机制
02-06 强化学习 LLM PPO
[自动] [ARXIV]
4minschool 强化注意力学习:通过奖励机制优化视觉注意力模型
02-06 强化学习 多模态 注意力机制
[自动] [ARXIV]
5minschool 重新思考大模型强化学习中的信任区域
02-05 RLHF PPO 强化学习
[自动] [ARXIV]
4minschool 强化注意力学习:基于奖励反馈的注意力机制优化方法
02-05 强化学习 注意力机制 多模态
[自动] [ARXIV]
4minschool 基于急停干预的鲁棒干预学习
02-05 干预学习 自动驾驶 鲁棒性
[自动] [BLOGS_PODCASTS]
3minmic 2026年AI展望:大模型、智能体与算力趋势
02-04 LLM 智能体 Scaling Laws
[自动] [ARXIV]
4minschool 通过文本反馈扩展强化学习的能力边界
02-04 强化学习 RLHF 文本反馈
[自动] [ARXIV]
4minschool RLAnything:构建完全动态强化学习系统环境与模型
02-04 RLAnything 强化学习 LLM
[自动] [ARXIV]
4minschool 无奖励对齐技术处理多目标冲突
02-03 RACO 对齐技术 多目标优化
[自动] [ARXIV]
4minschool 基于文本反馈扩展强化学习的能力
02-03 强化学习 RLHF 文本反馈
[自动] [ARXIV]
4minschool RLAnything:完全动态强化学习系统构建环境、策略与奖励模型
02-03 强化学习 RL LLM
[自动] [BLOGS_PODCASTS]
3minmic 2026年AI展望:LLM、智能体、缩放定律与中国发展
02-03 LLM 智能体 缩放定律
[自动] [BLOGS_PODCASTS]
4minmic 2026年AI展望:LLM、智能体、算力与AGI发展路径
02-03 LLM AGI 智能体
[自动] [HACKER_NEWS]
3minnewspaper 训练万亿参数模型使其具备幽默感
02-03 LLM 幽默感 万亿参数
[自动] [ARXIV]
3minschool 研究揭示RLHF如何加剧大模型谄媚行为
02-03 RLHF 谄媚行为 模型偏见
[自动] [BLOGS_PODCASTS]
4minmic 2026年AI展望:LLM、智能体、算力与Scaling Laws
02-02 LLM 智能体 Scaling Laws
[自动] [ARXIV]
3minschool 推理大语言模型从被动求解转向主动询问
02-01 推理 交互式推理 PIR
[自动] [ARXIV]
4minschool 探索面向智能体的推理奖励模型
02-01 Agent RLHF 奖励模型
2026年一月 4 篇
类型阅读条目
[自动] [ARXIV]
4minschool 推理大模型从被动求解转向主动提问
01-30 推理模型 主动交互 思维链
[自动] [BLOGS_PODCASTS]
3minmic 🔥实战复盘:解锁GPT-OSS的智能体RL训练秘籍!
01-28 强化学习 智能体 Llama
[自动] [ARXIV]
5minschool 🔥POPE:利用特权探索破解硬核难题!
01-28 POPE 强化学习 LLM
[自动] [BLOGS_PODCASTS]
3minmic 🚀GPT-OSS智能体RL训练解密!从0到1实战复盘🔥
01-27 强化学习 Agent GPT-OSS