terminal

AI Stack

rss_feed
SYS_STABLE
目录

RLAIF

条目:6
2026年五月 1 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
2minmic RLAIF强化微调技术解析:LLM担任评判者的实现方法
05-01 强化微调 LLM评判 RLAIF
2026年四月 3 篇
类型阅读条目
[自动] [BLOGS_PODCASTS]
2minmic Amazon Nova模型的RLAIF强化学习微调实践
04-30 Amazon Nova RLAIF 强化学习
[自动] [BLOGS_PODCASTS]
2minmic 使用Lambda设计Amazon Nova模型的奖励函数指南
04-14 RLVR RLAIF 奖励函数
[自动] [BLOGS_PODCASTS]
2minmic AWS Lambda为Amazon Nova构建可扩展奖励函数的最佳实践
04-13 AWS Lambda Amazon Nova 强化学习
2026年三月 2 篇
类型阅读条目
[自动] [ARXIV]
2minschool LLM评测新范式:从表面启发式到知识 grounded 评估
03-13 LLM评测 LLM-as-a-Judge 评估幻觉
[自动] [ARXIV]
3minschool LLM评测新范式:从表面启发式到知识 grounded 评估
03-12 LLM评测 LLM-as-a-Judge MERG框架