目录
奖励函数
条目:12
2026年三月
2 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 3min | mic
Amazon Nova强化微调原理、应用场景与实现路径解析 03-01
Amazon Nova
强化微调
RFT |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Amazon Nova 强化微调原理、应用场景与实现选项解析 03-01
Amazon Nova
强化微调
RFT |
2026年二月
10 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 3min | mic
Amazon Nova 强化微调解析:基于反馈的 AI 定制原理与实践 02-28
Amazon Nova
RFT
强化微调 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Amazon Nova 强化微调解析:原理、应用场景与实现选项 02-28
Amazon Nova
强化微调
RFT |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Amazon Nova 强化微调原理、应用场景与实现选项解析 02-27
Amazon Nova
强化微调
RFT |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Amazon Nova 强化微调:原理、场景与实现指南 02-27
Amazon Nova
强化微调
RFT |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Amazon Nova 强化微调:原理、应用场景与实现指南 02-27
Amazon Nova
强化微调
RFT |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Amazon Nova 强化微调解析:原理、应用场景与实现指南 02-26
Amazon Nova
强化微调
RFT |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Amazon Nova 强化微调原理、应用场景与实现路径解析 02-26
Amazon Nova
强化微调
RFT |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Amazon Nova 强化微调指南:原理、场景与实现路径 02-26
Amazon Nova
RFT
强化微调 |
[自动]
[ARXIV] | 5min | school
Agent World Model:面向智能体强化学习的无限合成环境 02-12
Agent World Model
强化学习
合成环境 |
[自动]
[ARXIV] | 3min | school
研究揭示RLHF如何加剧大模型谄媚行为 02-03
RLHF
谄媚行为
模型偏见 |
无匹配条目