目录
RLAIF
条目:6
2026年五月
1 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 2min | mic
RLAIF强化微调技术解析:LLM担任评判者的实现方法 05-01
强化微调
LLM评判
RLAIF |
2026年四月
3 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[BLOGS_PODCASTS] | 2min | mic
Amazon Nova模型的RLAIF强化学习微调实践 04-30
Amazon Nova
RLAIF
强化学习 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
使用Lambda设计Amazon Nova模型的奖励函数指南 04-14
RLVR
RLAIF
奖励函数 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
AWS Lambda为Amazon Nova构建可扩展奖励函数的最佳实践 04-13
AWS Lambda
Amazon Nova
强化学习 |
2026年三月
2 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 2min | school
LLM评测新范式:从表面启发式到知识 grounded 评估 03-13
LLM评测
LLM-as-a-Judge
评估幻觉 |
[自动]
[ARXIV] | 3min | school
LLM评测新范式:从表面启发式到知识 grounded 评估 03-12
LLM评测
LLM-as-a-Judge
MERG框架 |
无匹配条目