目录
RLHF
条目:57
2026年三月
1 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 3min | mic
Amazon Nova 强化微调原理、应用场景与实现选项解析 03-01
Amazon Nova
强化微调
RFT |
2026年二月
52 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 3min | mic
Amazon Nova 强化微调:原理、应用场景与实现指南 02-28
Amazon Nova
强化微调
RFT |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Amazon Nova 强化微调原理:从评估学习到多轮智能体构建 02-27
Amazon Nova
强化微调
RFT |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Amazon Nova 强化微调原理、应用场景与实现选项解析 02-27
Amazon Nova
强化微调
RFT |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Amazon Nova 强化微调:原理、场景与实现指南 02-27
Amazon Nova
强化微调
RFT |
[自动]
[ARXIV] | 3min | school
基于优化的系统为何难以实现规范响应:代理与架构限制 02-27
RLHF
AI对齐
智能体 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Anthropic 模型蒸馏与 SWE-Bench 作弊机制分析 02-27
模型蒸馏
SWE-bench
奖励黑客 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Amazon Nova 强化微调解析:原理、应用场景与实现指南 02-26
Amazon Nova
强化微调
RFT |
[自动]
[BLOGS_PODCASTS] | 4min | mic
基于 veRL 与 Ray 在 SageMaker 上训练 CodeFu-7B 模型 02-26
veRL
Ray
SageMaker |
[自动]
[BLOGS_PODCASTS] | 4min | mic
在 Amazon SageMaker 上使用 veRL 与 Ray 训练 CodeFu-7B 模型 02-26
SageMaker
veRL
Ray |
[自动]
[BLOGS_PODCASTS] | 5min | mic
在 Amazon SageMaker 上使用 veRL 与 Ray 训练 CodeFu-7B 模型 02-26
SageMaker
veRL
Ray |
[自动]
[BLOGS_PODCASTS] | 5min | mic
基于 veRL 在 SageMaker 与 Ray 上训练 CodeFu-7B 模型 02-25
veRL
SageMaker
Ray |
[自动]
[BLOGS_PODCASTS] | 3min | mic
数十场中型发布会背后的共同主题:形成闭环 02-25
闭环
数据飞轮
合成数据 |
[自动]
[BLOGS_PODCASTS] | 5min | mic
基于veRL与Ray在SageMaker上训练CodeFu-7B模型 02-25
veRL
Ray
SageMaker |
[自动]
[BLOGS_PODCASTS] | 5min | mic
使用 veRL 和 Ray 在 SageMaker 上训练 CodeFu-7B 模型 02-25
SageMaker
Ray
veRL |
[自动]
[BLOGS_PODCASTS] | 6min | mic
使用veRL和Ray在SageMaker上训练CodeFu-7B模型 02-24
SageMaker
veRL
Ray |
[自动]
[JUEJIN] | 2min | sticky_note_2
大模型开发演进:从ChatGPT到多模态与A2A协作 02-24
LLM
ChatGPT
多模态 |
[自动]
[ARXIV] | 4min | school
用于软优势策略优化的平滑门函数 02-24
强化学习
GRPO
SAPO |
[自动]
[ARXIV] | 4min | school
MARS:基于边界感知与自我优化的奖励建模 02-23
RLHF
奖励模型
MARS |
[自动]
[ARXIV] | 4min | school
MARS:基于边距感知奖励建模与自我精炼 02-22
MARS
RLHF
Reward Model |
[自动]
[ARXIV] | 5min | school
MMARS:基于边际感知与自我精炼的奖励建模 02-21
RLHF
奖励建模
数据增强 |
[自动]
[ARXIV] | 5min | school
MARS:基于边际感知与自我精炼的奖励建模 02-20
MARS
RLHF
奖励模型 |
[自动]
[ARXIV] | 4min | school
强化快速权重与下一序列预测 02-19
REFINE
快速权重
强化学习 |
[自动]
[ARXIV] | 5min | school
基于枢纽重采样的LLM强化学习深度密集探索 02-17
LLM
强化学习
RLHF |
[自动]
[ARXIV] | 5min | school
CM2:基于清单奖励强化学习的多步智能体工具调用 02-16
强化学习
Agent
工具调用 |
[自动]
[ARXIV] | 4min | school
CM2:基于清单奖励强化学习的多步智能体工具调用 02-15
CM2
强化学习
Agent |
[自动]
[ARXIV] | 6min | school
CM2:基于清单奖励强化学习的多轮多步智能体工具调用 02-13
强化学习
Agent
工具调用 |
[自动]
[ARXIV] | 3min | school
能力导向训练引发大模型对齐风险研究 02-13
AI对齐
强化学习
奖励黑客 |
[自动]
[ARXIV] | 4min | school
基于奖励外推的广义在线策略蒸馏算法 02-13
LLM
强化学习
知识蒸馏 |
[自动]
[ARXIV] | 4min | school
P-GenRM:个性化生成式奖励模型与基于用户的测试时缩放 02-13
P-GenRM
个性化对齐
奖励模型 |
[自动]
[ARXIV] | 4min | school
超越VLM奖励:扩散原生潜在奖励建模 02-13
扩散模型
DiNa-LRM
奖励建模 |
[自动]
[HACKER_NEWS] | 4min | newspaper
基于人类反馈的强化学习:原理与应用 02-07
RLHF
强化学习
人类反馈 |
[自动]
[HACKER_NEWS] | 5min | newspaper
基于人类反馈的强化学习原理与应用 02-07
RLHF
强化学习
人类反馈 |
[自动]
[HACKER_NEWS] | 5min | newspaper
基于人类反馈的强化学习:原理与应用 02-07
RLHF
强化学习
人类反馈 |
[自动]
[HACKER_NEWS] | 7min | newspaper
基于人类反馈的强化学习机制解析 02-07
RLHF
强化学习
人类反馈 |
[自动]
[ARXIV] | 4min | school
重新思考大模型强化学习中的信任区域机制 02-06
强化学习
LLM
PPO |
[自动]
[ARXIV] | 4min | school
强化注意力学习:通过奖励机制优化视觉注意力模型 02-06
强化学习
多模态
注意力机制 |
[自动]
[ARXIV] | 5min | school
重新思考大模型强化学习中的信任区域 02-05
RLHF
PPO
强化学习 |
[自动]
[ARXIV] | 4min | school
强化注意力学习:基于奖励反馈的注意力机制优化方法 02-05
强化学习
注意力机制
多模态 |
[自动]
[ARXIV] | 4min | school
基于急停干预的鲁棒干预学习 02-05
干预学习
自动驾驶
鲁棒性 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
2026年AI展望:大模型、智能体与算力趋势 02-04
LLM
智能体
Scaling Laws |
[自动]
[ARXIV] | 4min | school
通过文本反馈扩展强化学习的能力边界 02-04
强化学习
RLHF
文本反馈 |
[自动]
[ARXIV] | 4min | school
RLAnything:构建完全动态强化学习系统环境与模型 02-04
RLAnything
强化学习
LLM |
[自动]
[ARXIV] | 4min | school
无奖励对齐技术处理多目标冲突 02-03
RACO
对齐技术
多目标优化 |
[自动]
[ARXIV] | 4min | school
基于文本反馈扩展强化学习的能力 02-03
强化学习
RLHF
文本反馈 |
[自动]
[ARXIV] | 4min | school
RLAnything:完全动态强化学习系统构建环境、策略与奖励模型 02-03
强化学习
RL
LLM |
[自动]
[BLOGS_PODCASTS] | 3min | mic
2026年AI展望:LLM、智能体、缩放定律与中国发展 02-03
LLM
智能体
缩放定律 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
2026年AI展望:LLM、智能体、算力与AGI发展路径 02-03
LLM
AGI
智能体 |
[自动]
[HACKER_NEWS] | 3min | newspaper
训练万亿参数模型使其具备幽默感 02-03
LLM
幽默感
万亿参数 |
[自动]
[ARXIV] | 3min | school
研究揭示RLHF如何加剧大模型谄媚行为 02-03
RLHF
谄媚行为
模型偏见 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
2026年AI展望:LLM、智能体、算力与Scaling Laws 02-02
LLM
智能体
Scaling Laws |
[自动]
[ARXIV] | 3min | school
推理大语言模型从被动求解转向主动询问 02-01
推理
交互式推理
PIR |
[自动]
[ARXIV] | 4min | school
探索面向智能体的推理奖励模型 02-01
Agent
RLHF
奖励模型 |
2026年一月
4 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
推理大模型从被动求解转向主动提问 01-30
推理模型
主动交互
思维链 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
🔥实战复盘:解锁GPT-OSS的智能体RL训练秘籍! 01-28
强化学习
智能体
Llama |
[自动]
[ARXIV] | 5min | school
🔥POPE:利用特权探索破解硬核难题! 01-28
POPE
强化学习
LLM |
[自动]
[BLOGS_PODCASTS] | 3min | mic
🚀GPT-OSS智能体RL训练解密!从0到1实战复盘🔥 01-27
强化学习
Agent
GPT-OSS |
无匹配条目