目录
RLVR
条目:3
2026年四月
2 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 2min | mic
使用Lambda设计Amazon Nova模型的奖励函数指南 04-14
RLVR
RLAIF
奖励函数 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AWS Lambda为Amazon Nova构建可扩展奖励函数的最佳实践 04-13
AWS Lambda
Amazon Nova
强化学习 |
2026年三月
1 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 3min | school
基于能量函数的语言模型特征匹配微调方法 03-13
微调
SFT
能量函数 |
无匹配条目