目录
偏好对齐
条目:2
2026年三月
1 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 3min | school
探究推理模型作为裁判在非可验证LLM后训练中的作用 03-16
LLM
后训练
LLM-as-Judge |
2026年二月
1 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
面向冲突目标的免奖励对齐方法 02-04
RACO
对齐
多目标优化 |
无匹配条目
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 3min | school
探究推理模型作为裁判在非可验证LLM后训练中的作用 03-16
LLM
后训练
LLM-as-Judge |
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
面向冲突目标的免奖励对齐方法 02-04
RACO
对齐
多目标优化 |