terminal AI Stack

首页归档搜索标签 AI史塔克关于

TAGS / TERM

偏好对齐

共 2 篇

探究推理模型作为裁判在非可验证LLM后训练中的作用 2026-03-16 · ARXIV
面向冲突目标的免奖励对齐方法 2026-02-04 · ARXIV